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总 序 


短 短 几 年 间 ， 大 数据 就 以 一 日 千里 的 发 展 速度 ， 快 速 实现 了 从 概念 
到 落地 ， 直 接 带动 了 相关 产业 的 井喷 式 发 展 。 数 据 采 集 、 数 据 存储 、 数 
据 挖掘 、 数 据 分 析 等 大 数据 技术 在 越 来 越 多 的 行业 中 得 到 应 用 ， 随 之 而 
来 的 就 是 大 数据 人 才 缺 口 问题 的 凸显 。 根据 《人 民 日 报 》 的 报道 , 未 来 3 一 
5 年， 中 国 需要 180 万 数据 人 才 ， 但 目前 只 有 约 30 万 人 ， 人 才 缺 口 达到 
150 万 之 多 。 

大 数据 是 一 门 实践 性 很 强 的 学 科 ， 在 其 金字 塔 型 的 人 才 资 源 模型 中 
数据 科学 家 居于 塔 尖 位 置 ， 然 而 该 领域 对 于 经 验 丰富 的 数据 科学 家 需求 相 
对 有 限 ， 反 而 是 对 大 数据 底层 设计 、 数 据 清洗 、 数 据 挖掘 及 大 数据 安全 等 
相关 人 才 的 需求 急剧 上 升 ， 可 以 说 占据 了 大 数据 人 才 需 求 的 80% 以 上 。 比 
如 数据 清洗 、 数 据 挖掘 等 相关 职位 ， 需 要 源源 不 断 的 大 量 专业 人 才 。 

巨大 的 人 才 需 求 直接 催 热 了 相应 的 大 数据 应 用 专业 。2018 年 1 月 18 
日 ， 教 育 部 公布 了 “大 数据 技术 与 应 用 ”专业 备案 和 审批 结果 ， 已 有 270 
所 高 职 院 校 申报 开设 “大 数据 技术 与 应 用 ”专业 ， 其 中 共有 208 所 职业 院 
校 获 批 “大 数据 技术 与 应 用 ”专业 。 随 着 大 数据 的 深入 发 展 ， 未 来 几 年 申 
请 与 获 批 该 专业 的 职业 院 校 数量 仍 将 持续 走高 。 同 时 ， 对 于 国家 教育 部 正 
式 设立 的 “数据 科学 与 大 数据 技术 ”本 科 新 专业 ， 除 已 获 批 的 35 所 大 学 
之 外 ，2017 年 申请 院 校 也 高 达 263 所 。 

即使 如 此 ， 就 目前 而 言 ， 在 大 数据 人 才 培 养 和 大 数据 课程 建设 方面 ， 
大 部 分 专科 院 校 仍然 处 于 起 步 阶段 ， 需 要 探索 的 问题 还 有 很 多 。 首 先 ， 大 
数据 是 个 新 生 事物 ， 懂 大 数据 的 老师 少 之 又 少 ， 院 校 缺 “人 ” 其 次 ， 院 
校 尚未 形成 完善 的 大 数据 人 才 培 养 和 课程 体系 ， 人 缺乏“ 机制” 再次， 大 
数据 实验 需要 为 每 位 学 生 提 供 集群 计算 机 ， 院 校 缺 “机 器 ”， 最 后 ， 院 校 
没有 海量 数据 ， 开 展 大 数据 教学 实验 工作 缺少 “原材料 ”。 

对 于 注重 实 操 的 大 数据 技术 与 应 用 专业 专科 建设 而 言 ， 需 要 重点 面向 
网 络 息 虫 、 大 数据 分 析 、 大 数据 开发 、 大 数据 可 视 化 、 大 数据 运 维 工程 师 
的 工作 岗位 ， 帮 助 学 生 掌握 大 数据 技术 与 应 用 专业 必 备 知识 ， 使 其 具备 大 
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数据 采集 、 存 储 、 清 洗 、 分 析 、 开 发 及 系统 维护 的 专业 能 力 和 技能 ， 成 为 
能 够 服务 区 域 经 济 的 发 展 型 、 创 新 型 或 复合 型 技术 技能 人 才 。 无 论 是 缺 
“人 入 缺 “ 机 制 ” 缺 “ 机 器 ?”， 还 是 缺少 “原材料 ” 最 终 都 难以 培养 出 
合格 的 大 数据 人 才 。 

其 实 ， 早 在 网 格 计算 和 云 计算 兴起 时 ， 我 国 科技 工作 者 就 兽 遇 到 过 类 
似 的 挑战 ， 我 有 幸 参与 了 这 些 问 题 的 解决 过 程 。 为 了 解决 网 格 计算 问题 ， 
我 在 清华 大 学 读 博 期 间 ， 于 2001 年 创办 了 中 国 网 格 信息 中 转 站 网 站 ， 每 
天 花 几 个 小 时 收集 和 分 享有 价值 的 资料 给 学 术 界 ， 此 后 我 也 多 次 筹办 和 主 
持 全 国 性 的 网 格 计算 学 术 会 议 ， 进 行 信息 传递 与 知识 分 享 。2002 年 , 我 与 
其 他 专家 合作 的 《网 格 计算 》 教 材 正 式 面世 。 

2008 年 ， 当 云 计 算 开 始 萌芽 之 时 ， 我 创办 了 中 国 云 计 算 网 站 
(chinacloud.cn) (在 各 大 搜索 引擎 “ 云 计 算 ” 关 键 词 中 排名 第 一 )，2010 
年 出 版 了 《 云 计算 〈 第 1 版 )》，2011 年 出 版 了 《 云 计算 〈 第 2 版 )》，2015 
年 出 版 了 《 云 计算 〈 第 3 版 )》， 每 一 版 都 花费 了 大 量 成 本 制作 并 免费 分 享 
对 应 的 几 十 个 教学 PPT。 目前, 这些 PPT 的 下 载 总 量 达到 了 几 百 万 次 之 多 。 
同时 , 《 云 计 算 》 一 书 也 成 为 国内 高 校 的 优秀 教材 ， 在 中 国 知 网 公布 的 高 
被 引 图 书 名 单 中 , 《 云 计 算 》 在 自动 化 和 计算 机 领域 排名 全 国 第 一 。 

除了 资料 分 享 ， 在 2010 年 ， 我 们 在 南京 组 织 了 全 国 高 校 云 计算 师资 
培训 班 ， 培 养 了 国内 第 一 批 云 计算 老师 ， 并 通过 与 华为 、 中 兴 、360 等 知 
名 企业 合作 ， 输 出 云 计算 技 术 ， 培 养 云 计算 研发 人 人才。 这些 工作 获得 了 大 
家 的 认可 与 好 评 ， 此 后 我 接连 担任 了 工信部 云 计算 研究 中 心 专家 、 中 国 云 
计算 专家 委员 会 云 存储 组 组 长 、 中 国 大 数据 应 用 联盟 人 工 智 能 专家 委员 会 
主任 等 。 

近 几 年 ， 面 对 日 益 突出 的 大 数据 发 展 难题 ， 我 们 也 正在 尝试 使 用 此 前 
类 似 的 办 法 去 应 对 这 些 挑 战 。 为 了 解决 大 数据 技术 资料 缺乏 和 交流 不 够 通 
透 的 问题 , 我 们 于 2013 年 创办 了 中 国 大 数据 网 站 (thebigdata.cn), 投入 大 
量 的 人 力 进 行 日 常 维护 ， 该 网 站 目前 已 经 在 各 大 搜索 引擎 的 “大 数据 ” 关 
键 词 排 名 中 位 居 第 一 ;为 了 解决 大 数据 师资 项 乏 的 问题 ， 我 们 面向 全 国 院 
校 陆续 举办 多 期 大 数据 师资 培训 班 ， 致 力 于 解决 “ 缺 人 ”的 问题 。 

2016 年 年 末 至 今 ， 我 们 已 在 南京 多 次 举办 全 国 高 校 /高 职 /中 职 大 数据 
免费 培训 班 ， 基 于 《大 数据 》《 大 数据 实验 手册 》 以 及 云 创 大 数据 提供 的 
大 数据 实验 平台 ， 帮 助 到 场 老师 们 跑 通 了 Hadoop、Spark 等 多 个 大 数据 实 











验 ， 使 他 们 跨 过 了 “从 理论 到 实践 ， 从 知道 到 用 过 ”的 门槛 。 

其 中 ， 为 了 解决 大 数据 实验 难 问题 而 开发 的 大 数据 实验 平台 ， 正 在 为 
越 来 越 多 的 高 校 教 学 科研 带 去 方便 ， 帮 助 解决 “ 缺 机 器 ”与 “ 缺 原 材料 ” 
的 问题 。2016 年 ， 我 带领 云 创 大 数据 〈www.cstorcn， 股 票 代 码 : 835305) 
的 科研 人 员 , 应 用 Docker 容器 技术 , 成 功 开 发 了 BDRack 大 数据 实验 一 体 
机 ， 它 打破 了 虚拟 化 技术 的 性 能 瓶颈 ， 可 以 为 每 一 位 参加 实验 的 人 员 虚 拟 
出 Hadoop 集群 、Spark 集群 、Storm 集群 等 ， 自 带 实验 所 需 数据 ， 并 准备 
了 详细 的 实验 手册 (包含 42 个 大 数据 实验 )、PPT 和 实验 过 程 视频 ， 可 以 
开展 大 数据 管理 、 大 数据 挖掘 等 各 类 实验 ， 并 可 进行 精确 营销 、 信 用 分 析 

目前 ， 大 数据 实验 平台 已 经 在 郑州 大 学 、 成 都 理工 大 学 、 金 陵 科 技 学 
院 、 天 津 农 学 院 、 西 京 学 院 、 郑 州 升 达 经 贸 管理 学 院 、 信 阳 师 范 学 院 、 镇 
江 高 等 职业 技术 学 校 等 多 所 院 校 部 署 应 用 ， 并 广 受 校方 好 评 。 该 平台 也 可 
以 云 服 务 的 方式 在 线 提供 (大 数据 实验 平台 ，https://bd.cstor.cn)， 实 验 更 
是 增 至 85 个 ， 师 生 通过 自学 ， 可 用 一 个 月 时 间 成 为 大 数据 实验 动手 的 高 
手 。 此 外 ， 面 对 席卷 而 来 的 人 工 智能 浪潮 ， 我 们 团队 推出 的 AIRack 人 工 
智能 实验 平台 、DeepRack 深度 学 习 一 体 机 以 及 dServer 人 工 智能 服务 器 等 
系列 应 用 ， 一 举 解决 了 人 工 智能 实验 环境 搭建 困难 、 缺 乏 实验 指导 与 实验 
数据 等 问题 ， 目 前 已 经 在 清华 大 学 、 南 京 大 学 、 南 京 农业 大 学 、 西 安 科 技 
大 学 等 高 校 投入 使 用 。 

在 大 数据 教学 中 ， 本 科 院 校 的 实践 教学 应 更 加 系统 性 ， 偏 向 新 技术 的 
应 用 ， 且 对 工程 实践 能 力 要 求 更 高 。 而 高 职 、 高 专 院 校 则 更 偏向 于 技术 性 
和 技能 训练 ， 理 论 以 够 用 为 主 ， 学 生 将 主要 从 事 数 据 清 洗 和 运 维 方 面 的 工 
作 。 基 于 此 ， 我 们 联合 多 家 高 职 院 校 专家 准备 了 《 云 计 算 导 论 》《 大 数据 
导论 》《 数 据 挖掘 基础 》《R 语言 》《 数 据 清洗 》《 大 数据 系统 运 维 》《 大 数 
据 实践 》 系 列 教材 ， 帮 助 解决 “机 制 ” 欠 缺 的 问题 。 

此 外 ， 我 们 也 将 继续 在 中 国 大 数据 〈thebigdatacn ) 和 中 国 云 计算 
(chinacloud.cn) 等 网 站 免费 提供 配套 PPT 和 其 他 资料 。 同 时 ， 持 续 开 放大 
数据 实验 平台 (https://bd.cstor.cn)、 免 费 的 物 联网 大 数据 托管 平台 万 物 云 
(wanwuyun.com) 和 环境 大 数据 免费 分 享 平台 环境 云 (envicloud.cn)， 使 
资源 与 数据 随手 可 得 ， 让 大 数据 学 习 变 得 更 加 轻松 。 

在 此 ,特别 感谢 我 的 硕士 导师 谢 希 仁 教授 和 博士 导师 李 三 立 院士 。 谢 
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希 仁 教授 所 著 的 《计算 机 网 络 》 已 经 更 新 到 第 7 版 ， 与 时 俱 进 日 臻 完美， 
时 时 提醒 学 生 要 以 这 样 的 标准 来 写 书 。 李 三 立 院士 是 留 苏 博士 ， 为 我 国 计 
算 机 事业 做 出 了 杰出 贡献 ， 曾 任国 家 梦 登 计划 项 目 首席 科学 家 。 他 的 严谨 
治学 带 出 了 一 大 批 杰 出 的 学 生 。 

本 从 书 是 集体 智慧 的 结晶 ， 在 此 说 向 付出 辛勤 劳动 的 各 位 作者 致敬 ! 
书 中 难免 会 有 不 当 之 处 ， 请 读者 不 音 赐教 。 我 的 邮箱 :gloud@126.com， 
微 信 公 众 号 : 刘 鹏 看 未 来 lpoutlook)。 





刘 鹏 
于 南京 大 数据 研究 院 
2018 年 5 月 
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大 数据 已 成 为 数据 分 析 的 前 沿 技术 ， 简 单 来 讲 ， 在 各 种 各 样 的 数据 类 
型 中 ， 快 速 获得 有 价值 信息 的 能 力 ， 就 是 大 数据 技术 。 也 正 是 这 样 一 种 技 
术 促 使 众多 企业 寻找 到 发 展 的 新 的 潜力 。 

互联 网 时 代 引 发 了 大 数据 信息 的 空前 爆炸 ， 改 变 了 互联 网 的 数据 应 用 
模式 ， 同 时 还 深 深 影 响 着 人 们 的 生产 生活 。 我 们 已 经 深 处 在 大 数据 时 代 ， 
已 经 认识 到 大 数据 正 改变 着 人 们 的 思维 模式 ， 但 同时 大 数据 也 向 我 们 抛 出 
一 些 难题 ， 在 解决 这 些 难题 的 同时 ， 意 味 着 我 们 对 大 数据 的 研究 开始 朝 纵 
深 方 向 发 展 。 

大 数据 技术 与 应 用 是 新 兴 的 专业 ， 它 将 大 数据 分 为 几 类 ， 与 适应 不 同 
领域 发 展 需求 的 前 沿 技术 相 结合 ， 引 入 企业 真实 项 目 ， 依 托 产 学 界 雄 厚 的 
科研 力量 ， 培 养 适 应 新 形势 并 具有 新 思维 和 技能 的 “高 层次 、 实 用 型 、 国 
际 化 ”的 复合 型 大 数据 专业 人 才 。 本 教材 受到 了 国家 级 高 技能 人 才 培 训 基 
地 (重庆 电子 工程 职业 学 院 ) 建设 项 目的 资助 ， 是 项 目 中 软件 与 信息 服务 
领域 的 培训 教材 之 一 。 

本 教材 共 分 为 7 个 章节 ， 第 1 章 主要 介绍 大 数据 的 基本 概念 、 特 征 和 
意义 ， 以 及 表现 形态 、 大 数据 的 应 用 场景 等 基本 内 容 。 第 2 章 主 要 介绍 与 
大 数据 技术 密 不 可 分 的 云 计 算 技 术 及 其 应 用 ， 介 绍 大 数据 的 基本 架构 ， 
Hadoop 平台 基本 内 容 等 ， 并 通过 上 机 实际 操作 来 完成 课程 的 学 习 。 第 3 
章 从 对 大 数据 的 采集 开始 介绍 ， 介 绍 了 大 数据 的 采集 工具 、 采 集 方法 及 数 
据 预 处 理 的 方法 ， 最 后 介绍 了 ETL 概念 、 常 用 ETL 工具 的 比较 等 。 第 4 
章 介绍 了 大 数据 的 存储 方式 和 数据 仓库 的 构建 等 知识 结构 。 第 5 章 从 数据 
分 析 的 概念 入 手 ， 介 绍 了 数据 分 析 的 类 型 、 数 据 分 析 的 方法 及 数据 分 析 的 
活动 步 又， 介绍 了 数据 挖掘 的 几 种 算法 与 算法 的 应 用 。 第 6 章 介绍 数据 可 
视 化 的 基本 概念 ， 可 视 化 的 方法 与 几 种 可 视 化 工具 的 使 用 情况 。 第 7 章 介 
绍 国内 外 对 大 数据 应 用 的 经 典 案例 ， 以 及 编者 在 工作 过 程 中 参与 完成 的 真 
实 案例 ， 存 在 的 不 足 希望 读者 指出 ， 编 者 会 及 时 更 正 。 

本 书 在 重 理论 的 前 提 下 , 不 忽视 实际 的 可 操作 性 , 注重 对 问题 的 解决 ， 
每 个 章节 后 均 有 练习 题 ， 以 巩固 加 强 所 学 知识 ， 且 后 期 会 有 更 多 配套 资源 
的 跟 进 ， 其 目的 在 于 更 好 地 服务 于 广大 初学 者 以 及 大 数据 技术 的 爱好 者 。 
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第 1 章 


大 数据 的 概念 及 其 应 用 


随 着 互联 网 的 普及 ， 为 了 满足 人 们 搜索 网 络 信息 的 需求 ， 搜 索引 擎 抓 
取 了 巨大 的 信息 ， 社 交 网 络 把 分 散 的 人 群 联系 起 来 ， 电 子 商 务 在 满足 人 们 
便捷 购物 的 同时 ， 收 集 了 大 量 的 购物 意愿 和 购物 习惯 的 数据 。2010 年 是 中 
国 的 微 博 元 年 ，2011 年 微 信 开 始 独立 运营 ， 标 志 着 移动 互联 网 时 代 的 到 来 
所 产生 的 海量 数据 。 各 种 海量 数据 在 各 行 各 业 产生 ， 形 成 了 我 们 今天 的 大 
数据 。 

计算 和 数据 是 信息 产业 不 变 的 主题 ， 在 信息 技术 迅速 发 展 的 推动 下 ， 
人 们 的 感知 、 计 算 、 仿 真 、 模 拟 、 传 播 等 活动 产生 了 大 量 的 数据 ， 数 据 的 
产生 不 受 任 何 外 界 影响 和 限制 ， 因 此 可 以 说 大 数据 涵盖 了 计算 和 数据 两 大 


本 章节 通过 对 大 数据 的 概念 进行 描述 ， 介 绍 了 数据 的 主要 来 源 ， 构 成 
大 数据 的 因素 ， 通 过 对 大 数据 表现 形态 的 分 析 ， 展 现 了 目前 大 数据 应 用 的 
场景 。 





1.1 大 数据 的 概念 


在 过 去 20 年 ， 数 据 在 各 行 各 业 以 大 规模 的 态势 持续 增加 。 由 IDC 和 
EMC 联合 发 布 的 The Digital Universe of Opportunities: Rich Data and the 
Jncreasing Value of Internet of Things 研究 报告 中 指出 ,2011 年 全 球 数据 总 量 
已 达到 1.8ZB， 并 将 以 每 两 年 翻 一 番 的 速度 增长 ， 到 2020 年 ， 全 球 数据 量 
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将 达到 40ZB， 均 挫 到 每 个 人 身上 达到 5 200GB 以 上 。 在 “2017 年 世界 电 
信和 信息 化 社会 日 ”大 会 上 ， 工 信 部 总 工程 师 张 峰 指出 ， 我 国 的 数据 总 量 
正在 以 年 均 50% 的 速度 持续 增长 ， 预 计 到 2020 年 ， 我国 数据 总 量 在 全 球 占 
比 将 达到 21%。 美 国 市 场 研究 公司 IDC 发 布 的 报告 称 ， 全 球 大 数据 技术 和 
服务 市 场 将 在 未 来 几 年 保持 31.7% 的 年 复合 增长 率 , 2016 年 总 规模 达到 238 
亿美 元 。IBM 的 研究 称 ， 整 个 人 类 文明 所 获得 的 全 部 数据 中 ， 有 90% 是 过 
去 两 年 内 产生 的 。 全 球 数 据 的 膨胀 率 大 约 为 每 两 年 翻 一 番 。 

现今 ， 全 球 数据 呈 爆 炸 性 的 增长 ， 大 数据 常常 被 描述 为 巨大 的 数据 集 。 
相 比 传统 的 数据 而 言 ， 大 数据 通常 包括 大 量 需 要 实时 分 析 的 非 结构 化 数据 。 
另外 ， 大 数据 也 带 来 了 创造 新 价值 的 新 机 会 ， 帮 助 我 们 获得 对 隐藏 价值 的 
深入 理解 ， 也 带 来 新 的 挑战 。 教 会 我 们 如 何 有 效 地 管理 和 组 织 数据 集 。 

近年 来 ， 科 技 界 和 企业 界 甚至 世界 各 国政 府 都 将 大 数据 的 迅速 发 展 作 
为 关注 的 热点 。 许 多 政府 机 构 明确 宣布 加 快 大 数据 的 研究 和 应 用 。 除 此 以 
外 ,公共 媒体 也 对 大 数据 有 非常 高 昂 的 热情 ， 比 如 《经 济 学 人 》《 纽 约 时 报 》 
《全 国 公共 广播 电台 》《 自 然 》 《科学 》 等 杂志 专门 专刊 讨论 大 数据 的 影响 和 
挑战 。 大 数据 的 时 代 毫 无 疑问 已 然 到 来 。 著 名 管理 咨询 公司 麦肯锡 
(McKinsey & Company) 称 :“ 数 据 已 经 渗透 到 当今 每 一 个 行业 和 业务 职能 
领域 ， 成 为 重要 的 生产 因素 。 人 们 对 于 大 数据 的 挖掘 和 和 运用， 预示 着 新 一 
波 生产 力 增长 和 消费 须 余 浪潮 的 到 来 ” 一 个 国家 拥有 数据 的 规模 和 运用 数 
据 的 能 力 将 成 为 综合 国力 的 重要 组 成 部 分 ， 对 数据 的 占有 和 控制 将 成 为 国 
家 间 和 企业 间 新 的 争夺 焦点 。 大 数据 已 成 为 社会 各 界 关 注 的 新 焦点 ,“ 大 数 
据 时 代 ” 已 然 来 临 。 

如 今 ， 与 互联 网 公司 服务 相关 的 大 数据 迅速 增长 。 比 如 ，Google 每 月 
要 处 理 几 百 PB 的 数据 ，Facebook 每 月 产生 超过 10PB 的 日 志 ， 百 度 每 天 要 
处 理 几 十 PB 的 数据 ， 淘 宝 每 天 在 线 产 生 几 十 TB 的 交易 数据 。 在 每 一 天 的 
每 一 分 钟 里 ， 甚 至 在 我 们 没有 注意 的 时 候 ， 数 据 已 经 被 大 量 的 创造 出 来 了 。 

大 数据 是 一 个 抽象 的 概念 ， 除 了 在 量 上 非常 的 庞大 ， 还 有 其 他 一 些 特 
点 ， 这 些 特点 决定 了 它 是 “海量 数据 ”还 是 “非常 大 的 数据 ”。 目前， 大 数 
据 的 重要 性 已 经 是 公认 的 ， 但 是 人 们 对 于 大 数据 的 定义 却 各 执意 见 。 一 般 
来 说 ， 大 数据 意味 着 通过 传统 的 软件 或 者 硬件 无 法 在 有 限时 间 内 获得 有 意 
义 的 数据 集 ， 而 在 经 过 大 数据 技术 处 理 后 就 可 以 快速 获取 有 意义 数据 。 由 
于 企业 、 研 究 学 者 、 数 据 分 析 师 和 技术 从 业者 关注 的 重点 有 所 区 别 ， 以 下 
的 定义 能 帮助 我 们 更 好 地 深入 理解 大 数据 在 社会 、 经 济 和 技术 方面 的 内 涵 。 

2010 年 ，Apache Hadoop 定义 大 数据 为 “通过 传统 的 计算 机 在 可 接受 
的 范围 内 不 能 捕获 、 管 理 和 处 理 的 数据 集合 ”。2011 年 5 月 ， 麦肯锡 咨询 公 
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司 在 这 个 定义 基础 之 上 ， 宣 称 大 数据 能 够 在 创新 、 竞 争 和 生产 力 等 方面 大 
有 作为 。 大 数据 意味 着 通过 传统 的 数据 库 软 件 不 能 获得 、 存 储 和 管理 如 此 
大 量 的 数据 集 。 这 个 定义 包含 两 个 内 涵 : 第 一 ， 符 合 大 数据 的 标准 的 原型 
随 着 时 间 的 推移 和 技术 的 进步 正在 发 生变 化 。 第 二 ， 符 合 大 数据 的 标准 的 
原型 因 不 同 的 应 用 而 彼此 不 同 。 目 前 , 大 数据 的 范围 从 TB 级 发 展 到 PB 级 。 
从 麦肯锡 咨询 公司 对 大 数据 的 定义 ， 我 们 可 以 看 出 数据 集 的 容量 不 是 大 数 
据 的 唯一 标准 。 持 续 增加 的 数据 规模 和 通过 传统 数据 库 技术 不 能 有 效 的 管 
理 是 大 数据 的 两 个 关键 特征 。 


1.2 大 数据 的 来 源 


互联 网 时 代 ， 大 数据 的 来 源 除了 专业 机 构 产 生 的 数据 ， 如 CERN 〈 欧 
洲 核子 研究 组 织 ) 离子 对 撞 机 每 秒 产生 高 达 40TB 的 数据 , 我 们 每 个 人 也 都 
是 数据 的 产生 者 ， 同 时 也 是 数据 的 使 用 者 。 人 类 自从 发 明文 字 开 始 ， 就 记 
录 着 各 种 数据 ， 早 期 数据 保存 的 介质 一 般 是 纸张 ， 而 且 难 以 分 析 、 加 工 。 
随 着 计算 机 与 存储 技术 的 发 展 ， 以 及 万 物 互 联 的 过 程 ， 数 据 爆发 的 趋势 势 
不 可 挡 。 那 么 大 数据 究竟 来 源 于 哪些 方面 呢 ? 

1. 互联 网 大 数据 

大 数据 赖 以 生存 的 土壤 是 互联 网 。 这 些 数据 主要 来 自 两 个 方面 ， 一 方 
面 是 用 户 通过 网 络 所 留 下 的 痕迹 〈 包 括 浏览 信息 、 行 动 和 行为 信息 ); 另 一 
方面 是 互联 网 公司 在 日 常 运营 中 生成 、 累 积 的 用 户 网 络 行为 数据 。 这 些 数 
据 规模 已 经 不 能 用 GB 或 TB 来 衡量 。 

每 一 天 ， 全 世界 会 上 传 超过 5 亿 张 图 片 ， 每 分 钟 就 有 20 小 时 时 长 的 视 
频 被 分 享 。 一 分 钟 内 ， 微 博 、Twitter 上 新 发 的 数据 量 超过 10 万 条 ， 社 交 网 
络 Facebook 的 浏览 量 超过 600 万 。 海 量 网 络 信息 的 产生 催生 大 数据 。 移 动 
互联 时 代 ， 数 以 百 亿 计 的 机 器 、 企 业 、 个 人 随时 随地 都 会 获取 和 产生 新 数 
据 。 互 联网 搜索 巨头 Google 能 够 处 理 千 亿 以 上 的 网 页 数量 ， 每 月 处 理 的 数 
据 超过 400PB, 并 且 呈 继续 高 速 增长 的 趋势 ; YouTube 每 天 上 传 7 万 小 时 的 
视频 ; 淘宝 网 在 2010 年 就 拥有 3.7 亿 会 员 ， 在 线 商品 8.8 亿 件 ， 每 天 交易 
超过 数 千 万 笔 ， 单 日 数据 产生 量 超过 50TB， 存 储量 为 40PB; 2011 年 互联 
网 用 户 近 20 亿 ，Facebook 注册 用 户 超过 8.5 亿 ， 每 天 上 传 3 亿 张 照片 ， 每 
天 生成 300TB 日 志 数据 ;新 浪 微 博 每 天 有 数 十 亿 的 外 部 网 页 和 API 接口 访 
问 需 求 ， 每 分 钟 都 会 发 出 数 万 条 微 博 ; 百度 目前 数据 总 量 接近 1 000PB， 存 
储 网 页 数量 接近 1 万 亿 , 每 天 大 约 要 处 理 60 亿 次 搜索 请 求 ， 几 十 PB 数据 。 























据 IDC 的 研究 结果 称 ，2011 年 创造 的 信息 数量 达到 1 800EB， 每 年 产生 的 
数字 信息 量 还 在 以 60% 的 速度 增长 ， 到 2020 年 ， 全 球 每 年 产生 的 数据 信息 
将 高 达 35ZB…… 所 有 的 这 些 都 是 海量 数据 的 呈现 。 


2. 传统 行业 大 数据 


我 们 都 知道 互联 网 会 产生 大 量 数据 ， 但 传统 行业 同样 会 产生 大 数据 ， 
传统 行业 通常 指 一 些 固定 的 企业 ， 如 电信 、 银 行 、 金 融 、 医 药 、 教 育 、 电 
力 等 行业 。 

电信 行业 产生 的 数据 主要 集中 在 移动 设备 终端 所 产生 的 数据 与 信息 ， 
主要 包括 人 们 通过 电子 邮件 、 短 信 、 微 博 等 产生 的 文本 信息 、 语 音信 息 、 
图 像 信 息 。 

银行 业 产生 的 数据 集中 在 用 户 存款 交易 、 风 险 贷款 抵押 、 利 率 市 场 投 
放 、 业 务 管理 等 。 除 此 之 外 还 有 互联 网 银行 ， 比 如 支付 宝 ， 用 户 每 天 通过 
支付 宝 转 入 转 出 或 者 支付 产生 的 数据 也 是 相当 可 观 。 

金融 行业 产生 的 数据 集中 在 银行 资本 的 运作 、 股 票 、 证 券 、 期 货 、 货 
币 等 市 场 。 俗 话说 : 银行 金融 不 分 家 。 通 过 对 金融 数据 的 分 析 ， 能 够 针对 
资本 的 运作 更 加 具体 和 更 有 针对 性 。 医 疗 行业 产生 的 数据 集中 在 患者 的 数 
据 ， 通 过 对 患者 数据 的 分 析 ， 可 以 更 精确 地 预测 病理 情况 ， 从 而 对 患者 采 
取 恰 当 的 措施 。 

教育 行业 产生 的 数据 分 两 类 : 一 类 是 常规 的 结构 化 数据 ， 如 成 绩 、 学 
籍 、 就 业 率 、 出 勤 记录 等 ， 另 一 类 是 非 结构 化 数据 ， 如 图 片 、 视 频 、 教 案 、 
教学 软件 、 学 习 游 戏 等 。 客 观 的 教育 数据 其 价值 的 发 挥 取决 于 操控 和 应 用 
数据 的 人 。 教 育 大 数据 与 医疗 、 交 通 、 经 济 、 社 保 等 行业 的 关联 分 析 ， 能 
够 有 效 、 科 学 地 促进 教育 决策 的 正确 性 。 

电网 业务 数据 大 致 可 分 为 生产 数据 (如 发 电量 、 电 压 稳定 性 等 数据 )、 
运营 数据 〈 如 交易 电价 、 售 电量 、 用 电 客 户 等 数据 ) 和 管理 数据 (如 ERP、 
一 体 化 平台 、 协 同 办 公 等 数据 )。 电 网 信息 化 的 不 断 推进 ,电网 企业 数据 量 、 
数据 类 型 、 来 源 都 有 相应 的 变化 ， 数 据 量 呈 几何 级 爆炸 式 增加 ， 数 据 类 型 
也 越 来 越 复 杂 多 样 化 。 


3. 音频 、 视 频 和 数据 


音频 、 视 频 和 数据 是 隐藏 着 大 数据 的 核心 。 这 些 数据 结构 松散 ， 数 量 
巨大 ， 但 很 难 从 中 挖掘 有 意义 的 结论 和 有 用 的 信息 。Facebook 月 活跃 用 户 
接近 8.5 亿 , 每 天 上 传 的 照片 总 量 为 2.5 亿 张 。Twitter 有 4.65 亿 多 注册 账户 
每 天 发 布 的 Twitter 信息 总 量 突破 4 亿 条 。YouTube 每 天 有 20 亿 浏 览 量 , 占 
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据 整 个 互联 网 流量 的 10%, 平均 每 个 用 户 每 天 花 900 秒 在 YouTube 上 , 44% 
的 用 户 年 纪 介 于 12 一 34 岁 , 每 天 超过 82.9 万 个 视频 被 上 传 , 平均 每 个 视频 
长 度 为 2 分 46 秒 ， 每 天 产生 多 少 首 音乐 ， 多 少 部 电影 ， 多 少 文字 等 ， 这 对 
于 大 数据 将 是 一 个 可 观 的 数据 。 音 频 、 视 频 和 数据 是 我 们 最 容易 忽视 的 数 
据 来 源 ， 而 这 些 恰恰 才 是 真正 大 数据 的 来 源 ， 分 析 、 挖 掘 这 些 资讯 可 能 引 
发 更 大 的 资源 与 信息 。 


4. 移动 设备 的 实时 记录 与 跟踪 


实时 跟踪 器 之 前 的 运用 仅 限于 价值 高 昂 的 航天 飞机 以 及 气象 预测 ， 现 
在 也 应 用 于 汽车 方面 ， 即 汽车 生产 商 在 车 辆 中 配置 监控 器 ， 如 GPRS、 油 耗 
器 、 速 度 表 、 公 里 表 等 可 传播 信号 的 监控 器 。 可 以 连续 读 取 和 车辆 机 械 系统 
整体 的 运行 情况 。 现 在 ， 移 动 可 穿戴 设备 的 广泛 使 用 ， 企 业 可 以 从 这 些 数 
据 中 提取 非常 有 用 的 数据 从 而 获取 价值 。 这 一 类 数据 可 能 产生 的 业务 不 多 
但 可 以 推动 某 些 经 营 模式 发 生 实质 性 的 变革 。 例 如 ， 汽 车 传 感 数 据 可 用 于 
评价 司机 行为 从 而 推动 汽车 保险 业 的 巨大 变革 ， 以 及 汽车 的 节能 减 排 可 推 
动 环境 改善 的 变革 。 

一 个 收集 和 分 析 大 数据 的 行业 一 旦 形成 ， 它 就 能 重新 理解 市 场 ， 重 新 
挖掘 经 营 信息 ， 它 将 对 现 有 公司 产生 深刻 的 影响 。 据 相关 调查 ， 有 10% 的 
公司 认为 在 过 去 5 年 中 , 大 数据 彻底 改变 了 它们 的 经 营 方式 。46% 的 公司 认 
同 大 数据 是 其 决策 的 一 项 重要 支持 因素 。 通 过 大 数据 的 分 析 挖 掘 ， 公 司 可 
以 发 现 新 的 经 营 模 式 ， 改 进 生产 方式 ， 从 而 提高 经 济 效益 。 通 过 对 任意 大 
的 数据 组 中 应 用 相关 大 数据 技术 可 以 发 现 有 用 信息 ， 将 这 些 信息 商 业 化 ， 
从 而 获得 可 观 效益 。 所 以 ， 大 数据 的 巨大 魔力 就 是 能 改变 有 些 行业 全 部 公 
司 的 经 营 方式 。 





1.3 大 数据 的 特征 及 意义 


数据 分 析 是 大 数据 的 前 沿 技 术 。 从 各 种 各 样 类 型 的 数据 中 ， 快 速 高 效 
获得 有 价值 信息 的 能 力 ， 就 是 大 数据 技术 。 该 技术 是 众多 企业 发 展 的 潜力 。 
在 风起云涌 的 工业 界 ， 各 个 企业 对 大 数据 都 有 着 自己 不 同 的 解读 ， 有 的 学 
者 使 用 3S 来 描述 大 数据 ，3S 指 的 是 数据 的 大 小 (Size)、 数 据 的 处 理 速 度 
(Speed) 以 及 数据 的 结构 化 (Structure) 特点 。 还 有 的 学 者 使 用 3I 来 描述 
大 数据 。3I 分 别 指 的 是 以 下 几 个 方面 。 

口 了 莘 -defined (定义 不 明确 的 ): 多 个 主流 的 大 数据 定义 都 强调 了 大 数 

据 技术 规模 超过 传统 方法 处 理 数据 的 规模 ， 而 随 着 技术 的 进步 ， 




















oe 一 ”6 大 数据 导论 一 。 


数据 分 析 的 效率 不 断 提高 ， 符 合 大 数据 定义 的 数据 规模 也 会 相应 
地 不 断 变 大 ， 因 而 并 没有 一 个 明确 的 标准 。 

口 “Intimidating〈 令 人 生 且 的 ): 从 管理 大 数据 到 使 用 正确 的 工具 获取 
它 的 价值 ， 利 用 大 数据 的 过 程 中 充满 了 各 种 挑战 。 

口 “Immediate (即时 的 ): 数据 的 价值 会 随 着 时 间 快 速 衰减 ， 因 此 为 了 
保证 大 数据 的 可 控 性 ， 需 要 缩短 数据 搜集 到 获得 数据 洞察 之 间 的 
时 间 ， 使 得 大 数据 成 为 真正 的 即时 大 数据 ， 这 意味 着 能 尽快 地 分 
析 数 据 对 获得 竞争 优势 至 关 重 要 。 

2001 年 Gartner 分 析 员 道 格 。 莱 尼 在 演讲 中 指出 ， 数 据 增长 有 4 个 方向 
的 挑战 和 机 遇 : 数量 (Volume)， 即 数据 多 少 ， 多 样 性 (Variety)， 即 数据 
类 型 繁多 ; 速度 Velocity)， 即 资料 输入 、 输 出 的 速度 价值 (Value)， 即 
追求 高 质量 的 数据 。 在 莱 尼 的 理论 基础 上 , IBM 提出 大 数据 的 4V 特征 (如 
图 1-1 所 示 )， 得 到 了 业界 广泛 认可 。 


< > 


1-1 大 数据 的 4V 特征 











1. 数量 ( Volume ) 


指 大 数据 巨大 的 数据 量 与 数据 完整 性 。 数 量 的 单位 从 TB 级 别 跃升 到 
PB 级 别 甚至 ZB 级 别 。 据 有 关 学 者 了 解 ， 天 文学 和 基因 学 是 最 早产 生 大 数 
据 变革 的 领域 ，2000 年 ， 斯 隆 数字 巡天 项 目 启动 时 ， 位 于 新 墨西哥 州 的 户 
远 镜 ， 在 短 短 几 周 内 搜集 到 的 数据 已 经 比 天 文学 历史 上 总 共 搜集 的 数据 还 
要 多 ; 在 智利 的 大 型 视 场 全 景 巡 天 望远镜 投入 使 用 后 ， 其 在 5 天 之 内 搜集 
到 的 信息 量 将 相当 于 前 者 10 年 的 信息 档案 。 伴 随 着 各 种 随身 设备 以 及 物 联 
网 、 云 计算 、 云 存储 等 技术 的 发 展 ， 人 和 物 的 所 有 轨迹 都 可 以 被 记录 ， 数 
据 因此 被 大 量 生产 出 来 。 

移动 互联 网 的 核心 网 络 节点 是 人 ， 不 再 是 网 页 ， 人 人 都 成 为 数据 制造 
者 。 短 信 、 微 博 、 照 片 、 录 像 都 是 其 数据 产品 : 数据 来 自 无 数 自动 化 传 感 
器 、 自 动 记录 设 施 、 生 产 监测 、 环 境 监 测 、 交 通 监测 、 安 防 监 测 等 ;来 自 
自动 流程 记录 ， 如 刷卡 机 、 收 款 机 、 电 子 停车 收费 系统 ， 互 联网 点 击 、 电 
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话 拨号 等 设施 以 及 各 种 办 事 流 程 登记 等 。 大 量 自动 或 人 工 产 生 的 数据 通过 
互联 网 聚集 到 特定 地 点 ， 包 括 电 信 运 营 商 、 互 联网 运营 商 、 政 府 、 银 行 、 
商场 、 企 业 、 交 通 枢纽 等 机 构 ， 形 成 了 大 数据 之 海 。 

例如 ， 在 交通 领域 ， 北 京 市 交通 智能 化 分 析 平 台 记 录 了 来 自 路 网 摄像 
头 和 传感器 的 数据 。4 万 辆 浮动 车 每 天 产生 2 000 万 条 记录 ; 交通 卡 刷卡 记 
录 每 天 产生 1 900 万 条 ; 手机 定位 数据 每 天 产生 1 800 万 条 ; 出 租车 运营 数 
据 每 天 产生 100 万 条 ; 电子 停车 收费 系统 数据 每 天 产生 50 万 条 等 ， 这 些 数 
据 在 数量 和 速度 上 都 达到 了 大 数据 的 规模 。 


2. 多 样 性 ( Variety ) 


即 数据 类 型 繁多 。 随 着 传感器 、 智 能 设备 以 及 社交 协作 技术 的 飞速 发 
展 ， 数 据 也 变 得 更 加 复杂 ， 因 为 它 不 仅 包含 传统 的 关系 型 数据 ， 还 包含 来 
自 网 页 、 互 联网 日 志文 件 〈 包 括 点 击 流 数 据 )、 视 频 、 图 片 、 地 理 信 息 、 搜 
索索 引 、 社 交 媒 体 论坛 、 电 子 邮 件 、 文 档 、 主 动 和 被 动 系统 的 传感器 数据 
等 原始 、 半 结构 化 和 非 结构 化 数据 。 发 气 这 些 形态 各 异 、 快 慢 不 一 的 数据 
流 之 间 的 相关 性 ， 是 大 数据 做 前 人 之 未 做 、 能 前 人 所 不 能 的 机 会 。 大 数据 
技术 不 仅 是 处 理 巨 量 数据 的 利器 ， 更 为 处 理 不 同 来 源 、 不 同 格式 的 多 元 化 
数据 提供 了 可 能 。 


3. 速度 ( Velocity ) 


即 处 理 速度 快 。 目 前 ， 对 于 数据 智能 化 和 实时 性 的 要 求 越 来 越 高 ， 比 
如 开车 时 会 查看 智能 导航 仪 查询 最 短路 线 可 即时 给 出 ， 吃 饭 时 会 了 解 其 他 
用 户 对 这 家 餐厅 的 评价 可 即时 上 网 查询 ， 见 到 可 口 的 食物 会 拍照 即时 发 微 
博 等 诸如 此 类 的 人 与 人 、 人 与 机 器 之 间 的 信息 交流 互动 ， 这 些 都 不 可 避免 
带 来 数据 交换 。 而 数据 交换 的 关键 是 降低 延迟 ， 以 近乎 实时 的 方式 呈献 给 
用 户 。 

在 数据 处 理 速度 方面 ， 有 一 个 著名 的 “1 秒 定律 ”” 即 要 在 秒 级 时 间 范 
围 内 给 出 分 析 结 果 ， 超 出 这 个 时 间 ， 数 据 就 失去 价值 。 例 如 IBM 有 一 则 广 
告 ， 讲 的 是 “1 秒 ， 能 做 什么 ”，1 秒 ， 能 检测 出 中 国 台湾 的 铁道 故障 并 发 
布 预警 ， 也 能 发 现 美国 德 克 萨 斯 州 的 电力 中 断 ， 避 免 电网 瘫痪 ， 还 能 帮助 
一 家 全 球 性 金融 公司 锁定 行业 欺诈 ， 保 障 客户 利益 。 

在 商业 领域 ,“ 快 ”也 早已 贯穿 企业 运营 、 管 理 和 决策 智能 化 的 每 一 个 
环节 。 形 形 色色 描述 “ 快 ”的 新 兴 词 汇 出 现在 商业 数据 语 境 里 ， 例 如 实时 、 
快 如 闪电 、 光 速 、 念 动 的 瞬间 、 价 值 送 达 时 间 。 英 特 尔 中 国 研 究 院 首席 工 
程 师 吴 甘 沙 认为 ， 速 度 快 是 大 数据 处 理 技 术 和 传统 的 数据 挖掘 技术 最 大 的 
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区 别 。 大 数据 是 一 种 以 实时 数据 处 理 、 实 时 结果 导向 为 特征 的 解决 方案 ， 
它 的 “ 快 ” 有 两 个 层面 。 一 是 数据 产生 得 快 。 有 的 数据 是 爆发 式 产生 ， 例 
如 欧洲 核子 研究 中 心 的 大 型 强 子 对 撞 机 在 工作 状态 下 每 秒 产生 PB 级 的 数 
据 ， 有 的 数据 是 涓涓 细 流 式 产生 ， 但 是 由 于 用 户 众 多 ， 短 时 间 内 产生 的 数 
据 量 依然 非常 庞大 。 例如， 点 击 流 、 日 志 、 射 频 识别 数据 、GPS (全 球 定位 
系统 ) 位 置信 息 。 二 是 数据 处 理 得 快 。 正 如 水 处 理 系统 可 以 从 水 库 调 出 水 
进行 处 理 , 也 可 以 直接 对 涌 进 来 的 新 水 流 进 行 处 理 。 大 数据 也 有 批 处 理 (“ 静 
止 数据 ”转变 为 “ 正 使 用 数据 ”) 和 流 处 理 〈“ 动 态 数据 ”转变 为 “ 正 使 用 
数据 ”) 两 种 范式 ， 以 实现 快速 的 数据 处 理 。 

数据 的 处 理 速度 为 什么 要 “ 快 ”? 首先 ， 时 间 就 是 金钱 。 如 果 把 价值 
和 时 间 比 作 分 数 ， 那 么 价值 是 分 子 ， 时 间 就 是 分 母 ， 分 母 越 小 ， 单 位 价值 
就 越 大 。 面 临 同 样 大 的 数据 “矿山 ”“ 挖 矿 ” 效 率 是 竞争 优势 。 其 次 ， 像 
其 他 商品 一 样 ， 数 据 的 价值 会 折旧 ， 等 量 数 据 在 不 同时 间 点 价值 不 等 。 
NewSQL (新 的 可 扩展 性 /高 性 能 数据 库 ) 的 先行 者 VoltDB 内存 数据 库 ) 
发 明了 一 个 概念 叫 作 “ 数 据 连续 统一 体 ” 数据 存在 于 一 个 连续 的 时 间 轴 上 ， 
每 个 数据 项 都 有 它 的 年 龄 ， 不 同年 龄 的 数据 有 不 同 的 价值 取向 ， 新 产生 的 
数据 更 具有 个 体 价值 ， 产 生 时 间 较 为 久远 的 数据 集合 起 来 更 能 发 挥 价值 。 
再 次 ， 数 据 跟 新 闻 一 样 具 有 时 效 性 。 很 多 传感器 的 数据 产生 几 秒 之 后 就 失 
去 意义 了 。 美 国 国家 海洋 和 大 气管 理 局 的 超级 计算 机 能 够 在 日 本 地 震 后 9 
分 钟 计 算出 海啸 的 可 能 性 ， 但 9 分 钟 的 延迟 对 于 瞬间 被 海浪 吞噬 的 生命 来 
说 还 是 太 长 了 。 

越 来 越 多 的 数据 挖掘 趋 于 前 端 化 ， 即 提前 感知 预测 并 直接 提供 服务 对 
象 所 需要 的 个 性 化 服务 ， 例 如 ， 对 绝 大 多 数 商品 来 说 ， 找 到 顾客 “ 触 点 ” 
的 最 佳 时 机 并 非 在 结账 以 后 ， 而 是 在 顾客 还 提 着 篮子 逛街 时 。 电 子 商 务 网 
站 从 点 击 流 、 浏 览 历 史 和 行为 《如 放 入 购物 车 ) 中 实时 发 现 顾客 的 即时 购 
买 意图 和 兴趣 ， 并 据 此 推送 商品 ， 这 就 是 “ 快 ”的 价值 。 


4. 价值 ( Value ) 


即 追 求 高 质量 的 数据 。 大 数据 时 代数 据 的 价值 就 像 大 浪 淘 金 ， 数 据 量 
越 大 ， 里 面 真 正 有 价值 的 东西 就 越 少 。 现 在 的 任务 就 是 将 这 些 ZB、PB 级 
的 数据 ， 利 用 云 计算 、 智 能 化 开源 实现 平台 等 技术 ， 提 取出 有 价值 的 信息 ， 
将 信息 转化 为 知识 ， 发 现 规律 ， 最 终 用 知识 促成 正确 的 决策 和 行动 。 追 求 
高 质量 的 数据 是 一 项 重要 的 大 数据 要 求 和 挑战 ， 即 使 最 优秀 的 数据 清理 方 
法 也 无 法 消除 某 些 数 据 固 有 的 不 可 预测 性 。 例 如 人 的 感情 和 诚实 性 、 天 和气 
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形势 、 经 济 因素 以 及 其 他 因素 。 





1.4 大 数据 的 表现 形态 


大 数据 在 当今 社会 非常 时 艇 ， 但 真正 要 面 对 的 是 企业 如 何 操作 ， 如 何 
落地 。 传 统 数据 的 获得 通过 问卷 调查 收集 数据 ， 或 者 是 已 存储 的 历史 经 营 
数据 ， 比 如 财务 数据 、 销 售 数据 等 ， 一 台 服 务 器 基本 就 能 完成 其 存储 容量 。 
传统 数据 的 表现 形态 为 对 数据 的 统计 分 析 ， 以 表 或 图 的 形式 呈现 给 大 家 。 
而 大 数据 的 信息 量 是 海量 的 ， 这 个 海量 并 不 是 某 个 时 间 端 点 的 量 级 总 结 ， 
而 是 持续 更 新 ， 持 续 增 量 。 由 于 大 数据 产生 的 过 程 中 诸多 的 不 确定 性 ， 使 
得 大 数据 的 表现 形态 多 种 多 样 。 

1. 大 数据 的 多 源 性 

首先 ， 大 数据 来 源 的 复杂 性 。 网 络 技术 的 迅猛 发 展 使 得 数据 产生 的 途 
径 多 样 化 。 比 如 微 博 、 微 信 、SNS 等 社交 网 络 的 数据 成 为 互联 网 上 的 主要 
信息 传播 媒介 。 如 何 将 这 些 分 散 但 相互 之 间 有 关联 的 信息 以 整体 的 视觉 思 
考 并 进行 整理 ， 并 打破 原 有 垂直 系统 间 的 信息 孤岛 ， 构 造 统一 的 数据 平台 ， 
才能 做 到 多 源 数据 的 有 效 融合 。 其 次 ， 大 数据 结构 的 复杂 性 。 传 统 数据 多 
是 能 够 存储 在 数据 库 中 的 结构 化 数据 ， 由 于 数据 生成 的 多 样 性 ， 如 社交 网 
络 、 移 动 终端 和 传感器 的 技术 等 设备 产生 的 非 结 构 化 数据 成 为 主流 。 非 结 
构 化 数据 的 格式 多 样 化 ， 包 括 文本 、 图 形 、 视 频 等 。 并 且 在 这 些 非 结构 化 
数据 中 可 能 毕 藏 着 非常 有 价值 的 信息 。 


2. 大 数据 的 实时 性 


大 数据 的 实时 性 ， 相 信 大 家 一 定 有 目 共 上 里。 首先， 体现 在 数据 更 新 的 
实时 性 。 互 联网 中 许多 应 用 都 有 实时 更 新 的 需求 ， 比 如 如 何在 网 页 中 搜索 
几 分钟 之 前 的 新 闻 结果 ， 购 物 时 商品 价格 、 库 存 信息 的 实时 更 新 。 在 购物 
过 程 中 ， 精 准 的 价格 与 库存 信息 直接 影响 着 用 户 对 产品 的 信赖 程度 。 其 次 ， 
数据 变化 后 通过 其 他 服务 的 实时 性 。 比 如 ， 携 程 网 站 推出 的 猜 你 喜欢 、 动 
态 广 告 、 用 户 画 像 、 浏 览 历史 等 。 作 为 一 站 式 的 旅游 服务 平台 ， 这 些 实时 
用 户 行为 服务 ， 提 供 跨 业务 线 的 推荐 和 实时 推荐 ， 能 有 效 满 足 用 户 的 需求 ， 
也 能 为 网 站 带 来 更 加 丰富 的 回报 。 

据 IDC 预测 , 目前 全 球 每 年 数据 的 生产 量 是 8ZB(1ZB=1 024EB), 2020 
年 将 达到 40ZB。 我 们 已 经 从 “传统 互联 网 ”时 代 的 “ 线 上 数据 化 ”阶段 和 
“互联 网 +” 时 代 的 “ 线 下 数据 化 ”阶段 ， 快 速 进 入 了 “数据 流通 时 代 ”， 即 
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线 上 线 下 全 产业 实现 数据 化 ， 数 据 在 产业 链 上 下 游 甚至 跨 产业 流通 并 创造 
价值 的 阶段 。 在 这 一 过 程 中 ， 目 前 数据 的 生产 速度 和 能 力 远 远大 于 我 们 对 
其 使 用 和 价值 变现 的 速度 和 能 力 。 对 数据 业务 价值 的 高 期 望 值 和 落后 的 数 
据 集成 方案 之 间 的 矛盾 日 渐 突 出 。 互 联网 、 物 联网 、 云 计算 ， 我 们 的 业务 
系统 每 时 每 刻 都 在 产生 着 大 量 的 不 同 来 源 的 数据 ， 如 何 及 时 、 有 效 、 全 面 
的 捕获 到 这 些 数据 是 会 直接 影响 数据 价值 体现 的 关键 因素 。 


3. 大 数据 的 不 确定 性 


首先 体现 的 是 数据 的 不 确定 性 。 原 始 数 据 的 不 准确 以 及 数据 采集 处 理 
粒度 、 应 用 需求 与 数据 集成 和 展示 等 因素 使 得 数据 在 不 同 尺度 、 不 同 维度 
上 都 有 不 同 程度 的 不 确定 性 。 传 统 数据 的 处 理 侧重 于 数据 的 准确 性 ， 基 本 
很 难 应 对 海量 、 高 维 、 多 样 性 的 不 确定 数据 。 而 大 数据 的 分 析 需 要 更 多 的 
粗 粒 数据 来 进行 分 析 。 有 具体 来 说 ， 数 据 的 采集 、 存 储 、 建 模 、 挖 掘 等 方面 
都 需要 新 的 方法 来 应 对 不 确定 性 带 来 的 挑战 。 数 据 的 不 确定 性 也 要 求 我 们 
使 用 不 确定 的 方法 加 以 应 对 。 其 次 是 模型 的 不 确定 性 。 数 据 的 不 确定 性 要 
求 数据 的 处 理 方法 能 够 提出 新 的 模型 方法 ， 并 能 够 把 握 模 型 的 表达 能 力 与 
复杂 程度 之 间 的 平衡 。 概 率 图 模型 能 很 好 地 对 数据 相关 性 进行 建 模 ， 被 广 
泛 使 用 在 不 确定 数据 的 建 模 领域 。 再 次 是 学 习 的 不 确定 性 。 数 据 模型 通常 
要 对 模型 参数 进行 学 习 ， 在 大 数据 的 背景 下 ， 传 统 近似 的 、 不 确定 的 学 习 
方法 需要 面 对 规 模 和 时 效 的 挑战 。 计 算 机 硬件 的 发 展 给 并 行 计算 带 来 了 可 
EE， 分 而 治之 的 方法 被 普遍 认为 是 解决 大 数据 问题 的 必由之路 。 香 农 说 过 : 
“信息 是 用 来 消除 不 确定 性 的 东西 ”相信 今天 的 大 数据 诸多 的 不 确定 性 在 
未 来 一 定 能 有 效 地 解决 ， 并 最 大 化 大 数据 的 利益 。 

在 处 理 这 些 类 型 的 数据 时 ， 数 据 清理 无 法 修正 这 种 不 确定 性 ， 然 而 ， 
尽管 存在 不 确定 性 ， 数 据 仍然 包含 宝贵 的 信息 。 我 们 必须 承认 、 接 受 大 数 
据 的 不 确定 性 ， 并 确定 如 何 充 分 利用 这 一 点 。 例 如 ， 采 取 数 据 融合 ， 即 通 
过 结合 多 个 可 靠 性 较 低 的 来 源 创建 更 准确 、 更 有 用 的 数据 点 ， 或 者 通过 和 鲁 
棒 优化 技术 和 模糊 逻辑 方法 等 先进 的 数学 方法 。 

以 上 只 是 大 数据 较为 明显 的 表现 形态 ， 随 着 科学 与 技术 的 发 展 ， 大 数 
据 的 表现 形态 必然 更 加 丰富 多 彩 。 此 外 ， 既 然 在 大 数据 时 代 ， 任 何 数据 都 
是 有 价值 的 ， 那 么 这 些 有 价值 的 数据 就 成 为 卖点 ， 导 致 争夺 和 侵害 的 发 生 。 
事实 上 ， 只 要 有 数据 ， 就 必然 存在 安全 与 隐私 的 问题 。 随 着 大 数据 时 代 的 
到 来 ， 网 络 数据 的 增多 ， 使 得 个 人 数据 面临 着 重大 的 风险 和 威胁 ， 因 此 ， 
网 络 需要 制定 更 多 合理 的 规定 以 保证 网 络 环境 的 安全 。 
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1.5 大 数据 的 应 用 场景 


随 着 传统 互联 网 向 移动 互联 网 发 展 ， 大 数据 给 互联 网 带 来 的 是 空前 的 
信息 爆炸 ， 它 不 仅 改变 了 互联 网 的 数据 应 用 模式 ， 还 将 深 深 地 影响 着 我 们 
的 生活 。 将 大 量 原始 数据 汇集 在 一 起 ， 通 过 各 种 技术 手段 分 析 数 据 中 潜在 
的 规律 ， 帮 助 我 们 更 好 地 对 过 去 进行 总 结 ， 以 及 预测 事物 的 发 展 趋势 ， 有 
助 于 人 们 做 出 正确 的 选择 。 身 处 在 大 数据 时 代 中 的 人 们 ， 已 经 认识 到 大 数 
据 将 数据 分 析 从 “向 后 分 析 ” 变 成 “向 前 分 析 ” 改变 了 人 们 的 思维 模式 ， 
但 同时 大 数据 也 向 我 们 提出 了 数据 采集 、 分 析 和 使 用 等 难题 。 在 解决 这 些 
难题 的 同时 ， 也 意味 着 大 数据 开始 向 纵深 方向 发 展 。 


1.5.1 大 数据 在 企业 中 的 应 用 


目前 ， 大 数据 主要 来 源 于 企业 ， 也 主要 应 用 于 企业 。BI (Business 
Intelligence， 商 业 智 能 ) 和 OLAP (On-Line Analytical Processing， 联 机 分 
析 处 理 ) 可 以 看 作 是 大 数据 应 用 的 先例 。 大 数据 在 企业 中 的 应 用 能 在 许多 
方面 提高 企业 生产 效率 和 竞争 力 。 特 别 是 在 营销 上 ， 伴 随 大 数据 的 相关 性 
分 析 ， 企 业 可 以 更 准确 地 预测 消费 者 的 行为 并 找到 新 的 业务 模式 ， 通 过 海 
量 数据 的 分 析 ， 在 销售 计划 上 ， 企 业 可 以 优化 自己 的 商品 价格 ， 在 操作 上 ， 
企业 能 够 提高 经 营 效率 和 满意 度 ， 优 化 劳动 力 ， 准 确 预 测 人 员 配 置 要 求 ， 
从 而 避免 产能 过 剩 ， 降 低 人 工 成 本 ， 在 供应 链 上 ， 企 业 利 用 大 数据 可 以 进 
行 库存 优化 、 物 流 优化 以 及 供应 商 协调 等 ， 从 而 达到 缓解 供应 和 需求 之 间 
的 差距 ， 控 制 预算 ， 以 及 改善 服务 。 

大 数据 在 金融 方面 的 应 用 发 展 迅速 , 例如 CMB(China Merchants Bank， 
中 国 招 商 银行 ) 利用 数据 分 析 认 识 到 “多 次 积分 ”和 “积分 兑换 商店 ”能 
有 效 吸 引 消费 者 。 通 过 建立 客户 预警 模型 可 以 保留 住 最 容易 流失 的 客户 。 
因此 ， 通 过 分 析 客 户 交 易 记 录 ， 能 够 识别 潜在 的 客户 。 利 用 远程 银行 和 云 
平台 实施 交叉 销售 ， 能 够 有 效 地 提升 业务 量 。 

大 数据 最 经 典 的 应 用 非 电子 商务 英 属 。 淘 宝 每 天 进行 成 千 上 万 的 交易 ， 
每 条 交易 自动 生成 的 交易 记录 中 包含 有 交易 时 间 、 商 品 价格 和 采购 数量 ， 
更 重要 的 是 ， 买 家 和 卖家 的 年 龄 、 性 别 、 地 址 甚至 爱好 和 兴趣 都 一 览 无 余 。 
淘宝 立方 是 淘宝 平台 在 大 数据 的 应 用 案例 ， 通 过 淘宝 立方 ， 商 家 可 以 在 淘 
宝 平 台 宏观 地 了 解 他 的 品牌 的 市 场 情况 和 消费 者 的 行为 等 。 商 家 可 以 根据 
此 数据 做 出 生产 和 库存 决策 。 同 时 ， 更 多 的 消费 者 能 够 以 更 优惠 的 价格 购 
买 自己 喜欢 的 商品 。 阿 里 巴巴 的 信用 贷款 通过 收集 企业 交易 数据 来 进行 自 
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动 分 析 ， 然 后 发 放贷 款 ， 在 整个 过 程 中 几乎 没有 人 工 干预 。 据 透露 ， 截 至 
目前 ， 阿 里 巴巴 已 借 出 300 亿 元 贷款 ， 只 有 0.3% 左 右 的 不 良 贷款 ， 这 大 大 
低 于 其 他 商业 银行 。 

在 2016 年 12 月 12 日 电 商 的 促销 期 淘宝 网 推出 “时 光 机 ”一 一 一 个 
根据 淘宝 买 家 几 年 来 的 购买 商品 记录 、 浏 览 点 击 次 数 、 收 货 地 址 等 数据 编 
辑 制作 的 “个 人 网 购 志 ” 从 而 记录 和 勾勒 出 让 人 感怀 的 生活 记忆 。 背 后 ， 
是 基于 对 4.7 亿 淘宝 注册 用 户 网 购 数据 的 分 析 处 理 ， 这 正 是 大 数据 的 典型 
应 用 。 


1.5.2 ”大 数据 在 物 联网 中 的 应 用 


物 联 网 是 一 个 多 样 性 的 对 象 。 不 仅 是 大 数据 的 重要 来 源 ， 而 且 是 大 数 
据 应 用 的 主要 市 场 。 物 联网 的 应 用 也 演变 不 休 。 随 着 物 联网 大 数据 的 应 用 ， 
物流 企业 经 历 了 深刻 的 变化 。 例 如 UPS (United Parcel Service， 联 合 包 庄 速 
递 服 务 公司 ) 的 所 有 货车 配备 有 传感器 、 无 线 适 配器 和 GPS。 因 此， 总 部 
可 以 跟踪 货车 的 位 置 ， 从 而 防止 货车 可 能 出 现 的 各 种 故障 。 同 时 ， 该 系统 
还 能 协助 公司 监督 和 管理 员工 ， 并 优化 交付 路 线 。 该 公司 通过 司机 过 去 的 

智慧 城市 是 基于 物 联 网 数据 应 用 的 热点 研究 领域 。 例 如 ， 在 佛罗里达 
州 的 迈阿密 - 戴 德 县 ，IBM 的 智慧 城市 项 目 帮助 政府 取得 更 好 的 决策 支持 ， 
有 效 进行 水 资源 管理 ， 减 少 交通 堵塞 ， 改 善 公共 安全 。 智 慧 城市 在 戴 德 县 
的 应 用 带 来 诸多 利益 。 


1.5.3 ”大 数据 在 在 线 社交 网 络 的 应 用 


SNS (Social Networking Services， 社 会 性 网 络 服务 ) 是 由 社会 个 体 和 
个 人 之 间 的 社会 关系 构成 的 社会 结构 。 在 线 SNS 的 大 数据 主要 来 自 即 时 消 
息 、 在 线 社交 、 微 博 、 分 享 等 ， 这 些 信息 在 某 种 程度 上 表达 了 不 同 用 户 活 
动 的 空间 。 在 线 SNS 的 大 数据 应 用 是 借助 计算 分 析 为 理解 人 类 社会 关系 提 
供 理论 和 方法 ， 这 些 理论 方法 有 数学 、 信 息 学 、 社 会 学 和 管理 科学 等 。 SNS 
主要 来 自 网 络 结构 、 群 体 互动 和 信息 传播 三 个 维度 。 其 应 用 有 网 络 与 情 分 
析 、 网 络 情报 收集 与 分 析 、 社 会 化 营销 、 政 府 决策 支持 和 在 线 教 育 等 。SNS 
大 数据 的 经 典 应 用 是 挖掘 和 分 析 内 容 信息 和 结构 信息 从 而 获取 价值 。 

(1) 基于 内 容 的 应 用 

语言 和 文本 是 SNS 中 两 种 最 重要 的 表现 形式 。 通 过 语言 和 文本 的 分 析 ， 
能 大 致 推断 显示 用 户 的 偏好 、 情 感 、 兴 趣 和 需求 等 。 
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(2) 基于 结构 的 应 用 
SNS 中 ， 用 户 是 社会 关系 、 兴 趣 和 爱好 等 综合 关系 的 一 个 节点 ， 用 户 
之 间 成 聚合 关系 。 这 种 密切 的 内 部 个 体 结构 关系 ， 松 散 的 外 部 关系 也 称 为 
社区 。 基 于 社区 的 分 析 非 常 重要 ， 它 能 改善 信息 传播 范围 和 帮助 分 析 社 区 
中 的 人 际 关 系 。 美 国 圣 克 鲁 斯 警察 局 通过 对 SNS 数据 的 预测 分 析 ， 能 够 发 
现 犯罪 趋势 和 犯罪 模式 ， 甚 至 预测 大 部 分 地 区 的 犯罪 率 。 
2013 年 4 月 ， 相 关机 构 通 过 Wolfram Alpha ( 沃 尔 夫 勒 姆 开发 的 搜索 引 
擎 ) 分 析 Facebook 上 的 一 百 万 以 上 的 美国 用 户 的 社会 数据 ， 研 究 出 了 社会 
行为 规律 。 据 分 析 ， 大 多 数 Facebook 用 户 在 20 出 头 谈 恋爱 ， 大 约 27 岁 左 
右 订 婚 ， 大 约 30 岁 左 右 结婚 。 在 接 下 来 30 年 到 60 年 ， 他 们 的 婚姻 关系 表 
现 出 缓慢 的 变化 。 这 样 的 研究 结果 与 人 口 普查 数据 高 度 一 致 。 此 外 ，Global 
Pulse〈 全 球 脉动 ) 进行 了 一 项 研究 ， 使 用 SNS 数据 能 够 揭示 一 些 社会 和 经 
济 活动 规律 。 他 们 做 了 一 个 研究 ， 利 用 Twitter 上 从 2010 年 7 月 到 2011 年 
10 月 的 公开 信息 ， 包 括 英语 、 日 语 和 印度 尼 西亚 语 ， 分 析 有 关 食 品 、 燃 料 、 
住房 和 贷款 的 话题 。 他 们 的 目标 是 更 好 地 了 解 公众 的 行为 和 所 关注 的 话题 。 
此 研究 基于 SNS 大 数据 从 以 下 几 个 方面 进行 分 析 : 
口 通过 检测 某 事 物 的 急剧 增长 从 而 预测 异常 事件 的 发 生 
口 “观察 Twitter 每 月 和 每 周 的 会 话 趋势 ， 制 定 出 特定 主题 随时 间 推移 
的 水 平 变化 的 模型 ; 
口 通过 比较 不 同 子 话题 的 比率 ， 了 解 用 户 行为 或 兴趣 的 转化 趋势 ; 
口 通过 Twitter 的 会 话 预测 外 部 趋势 。 一 个 典型 的 应 用 例子 是 ， 研 究 
发 现 从 官方 统计 数据 食品 价格 通胀 变化 和 Twitter 上 印度 尼 西亚 帖 
子 中 大 米 价 格 的 变化 一 致 。 
在 线 SNS 的 大 数据 应 用 通常 通过 以 下 3 个 方面 更 好 地 了 解 用 户 的 行为 ， 
掌握 社会 规律 和 经 济 活动 。 
口 预警: 通过 监听 电子 设备 使 用 过 程 中 的 异常 服务 来 迅速 应 对 危机 。 
口 “实时 监控 : 通过 监测 当前 用 户 的 行为 、 情 绪 和 偏好 ， 能 够 为 制定 
计划 提供 有 针对 性 的 准确 信息 。 
口 “ 实 时 反馈 : 通过 实时 监测 一 些 社会 活动 能 及 时 获得 反馈 。 


1.5.4 ”大 数据 在 健康 和 医疗 中 的 应 用 


医疗 保健 和 医药 数据 持续 快速 发 展 的 复杂 数据 ， 包 含 着 丰富 多 彩 的 价 
值 信息 。 对 于 有 效 的 存储 、 处 理 、 查 询 和 分 析 医 疗 数据 ， 大 数据 有 着 无 限 
潜力 。 医 疗 大 数据 的 应 用 将 深刻 影响 保健 业务 。 比 如 ， 为 了 预测 代谢 综合 
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症 患 者 以 帮助 其 复苏 , 安泰 人 寿 保险 公司 从 1 000 例 患 者 中 选择 102 例 患 者 
完成 一 个 实验 。 从 连续 三 年 的 代谢 综合 征 患者 的 一 系列 检测 结果 中 扫描 
600 000 个 化 验 结果 和 180 000 个 索赔 ， 最 后 得 出 一 个 应 对 危险 因素 的 个 性 
化 治疗 方案 和 应 对 大 多 数 此 患者 的 方案 。 此 外 , 医生 通过 开 处 方 斯 达 汀 ( 药 
物 名 ， 一 种 抑制 素 ) 帮助 病人 控制 体重 或 者 当 病人 体内 的 含 糖 量 超过 一 定 
数量 时 ， 就 建议 他 减少 甘油 三 酸 酯 的 摄 入 ， 这 可 能 在 未 来 10 年 减少 50% 的 
发 病 率 。 美 国 的 西奈 山 医疗 中 心 使 用 Ayasdi (使 用 机 器 智能 将 大 数据 与 机 
器 学 习 结合 在 一 起 的 公司 ， 服 务 于 各 式 医 疗 产业 、 航 天 产业 和 金融 产业 ) 
技术 ,， 它 通过 分 析 大 肠 杆菌 的 上 百 万 DNA 基因 序列 , 研究 细菌 耐 药 菌株 的 
医疗 大 数据 公司 。Ayasdi 使 用 了 一 个 全 新 的 数学 研究 方法 一 一 拓扑 数据 分 
析 ， 从 而 了 解数 据 特 点 。 

微软 在 2007 年 发 布 的 HealthVault， 是 医疗 大 数据 的 一 个 优秀 的 应 用 。 
它 的 目标 是 管理 个 人 健康 信息 和 家 庭 医疗 设备 。 目 前 ， 使 用 智能 设备 可 以 
输入 和 上 传 健康 信息 ， 通 过 第 三 方 机 构 能 够 导入 个 人 医疗 记录 。 此 外 ， 它 
还 可 以 通过 软件 开发 工具 包 (CSDK) 开放 接口 与 第 三 方 集成 应 用 。 


1.5.5 大 数据 在 群 智 感知 中 的 应 用 


随 着 无 线 通信 传感器 技术 、 移 动 电话 和 平板 电脑 的 快速 发 展 ， 它 们 有 
越 来 越 强 的 计算 和 感知 能 力 。 因 此 ， 群 智 感知 正在 成 为 移动 计算 的 关键 问 
题 。 在 群 智 感知 中 ， 为 了 分 配 感 测 任务 ， 大 量 的 普通 用 户 利用 移动 设备 收 
集 遥 感 数 据 并 利用 它 作 为 基本 传 感 单元 来 实施 协调 移动 网 络 。 通 过 群 智 感 
知 能 帮助 我 们 完成 大 规模 复杂 的 社会 感知 任务 。 在 群 智 感知 中 ， 参 与 者 完 
成 复杂 感知 的 任务 不 需要 有 专业 技能 。 群 智 感知 以 众 包 的 形式 已 经 成 功 应 
用 于 地 理 标记 照片 、 定 位 和 导航 、 城 市 道路 交通 感应 、 市 场 预测 、 采 集 意 
见 ， 以 及 其 他 劳动 密集 的 应 用 。 

众 包 是 群 智 感知 的 一 种 应 用 ， 它 是 以 自由 自愿 的 方式 将 一 个 公司 或 机 
构 执行 的 工作 任务 外 包 给 大 量 普通 用 户 。 事 实 上 ， 众 包 在 大 数据 出 现 之 前 
已 经 被 许多 公司 应 用 。 例 如 ， 宝 洁 、 宝 马 和 奥迪 凭借 众 包 提高 了 他 们 的 研 
发 和 设计 能 力 。 众 包 的 主要 思想 是 个 人 不 能 或 者 不 愿意 完成 的 任务 ， 分 发 
给 多 人 协作 完成 。 

大 数据 时 代 ， 空 间 纵 包 成 为 一 个 热点 话题 。 空 间 众 包 的 运作 框架 如 下 : 
用 户 可 以 在 指定 的 地 点 请 求 服务 和 资源 ， 愿 意 参 与 任务 的 移动 用 户 到 指定 
的 地 点 获取 相关 的 数据 〈 比 如 视频 、 音 频 或 者 图 片 )。 最 后 ， 获 得 的 数据 将 
发 送 给 服务 请 求 者 。 随 着 移动 设备 的 快速 增长 和 移动 设备 提供 的 日 益 强大 
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的 功能 ， 空 间 纵 包 将 比 传统 纵 包 更 普遍 。 比 如 微 差事 、 小 鱼 儿 网 、 拍 拍 赚 
等 国内 众 包 平台 ; Amazon Turk，Crowdflower 等 国外 众 包 平台 。 

大 数据 不 仅 给 我 们 带 来 了 很 多 机 会 ， 也 带 来 了 诸多 挑战 。 在 I 时 代 ， 
技术 是 主要 的 核心 ， 同 时 技术 也 驱动 数据 的 发 展 。 在 大 数据 时 代 ， 随 着 数 
据 价值 的 凸显 和 信息 的 进步 ， 大 数据 不 仅 带 来 社会 和 经 济 的 影响 ， 也 影响 
了 每 个 人 的 生活 方式 和 思考 方式 。 我 们 不 能 预测 将 来 ， 但 对 将 来 可 能 发 生 
的 事件 可 以 采取 预防 措施 。 任 何 行为 ， 皆 有 前 兆 。 但 在 现实 世界 中 ， 缺 少 
实时 记录 的 工具 , 许多 行为 看 起 来 是 “人 似 秋 鸿 有 来 信 , 事 如 春梦 了 无 痕 ”。 
在 互联 网 世界 则 完全 不 同 ， 是 “处 处 行 迹 处 处 痕 ”。 要 买 商品 ， 必 先 浏览 、 
对 比 、 询 价 ; 要 搞活 动 ， 必 先 征集 、 讨 论 、 策 划 。 互 联网 的 “请 求 ” 加 “ 响 
应 ”机 制 恰恰 在 服务 器 上 保留 了 人 们 大 量 的 前 兆 性 的 行为 数据 ， 把 这 些 数 
据 搜集 起 来 ， 进 一 步 分 析 挖 握 ， 就 可 以 发 现 隐藏 在 大 量 细节 背后 的 规律 ， 
依据 规律 ， 预 测 未 来 。 收 集 分 析 海 量 的 各 种 类 型 的 数据 ， 并 快速 获取 影响 
未 来 的 信息 的 能 力 ， 这 就 是 大 数据 技术 的 力量 所 在 。 




















和 1.6 习题 


. 什么 是 大 数据 ? 

- 大 数据 有 哪些 来 源 ? 

- 大 数据 的 主要 特征 是 什么 ? 

. 大 数据 有 哪些 表现 形态 ? 

- 大 数据 有 哪些 应 用 ? 

. 请 列举 我 们 身边 对 大 数据 技术 的 应 用 。 
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大 数据 的 架构 


大 数据 和 云 计算 密 不 可 分 ， 由 于 大 数据 处 理 和 应 用 需求 急剧 增长 ， 学 
术 界 和 工业 界 不 断 推 出 新 的 或 改进 的 计算 模式 和 系统 工具 平台 。 云 计算 具 
有 一 体 化 的 信息 平台 和 运营 平台 ， 云 计算 以 这 种 全 新 交付 模式 对 IT 界 产生 
着 重大 影响 , 尤其 对 传统 的 IT 产业 部 门 来 说 ， 将 颠覆 IT 产业 界 ， 带 来 一 场 
地 震级 的 震撼 。 

大 数据 可 通过 各 种 方式 来 存储 、 获 取 、 处 理 和 分 析 数 据 。 每 个 数据 来 
源 都 有 不 同 的 特征 ， 包 括 数据 的 频率 、 量 、 速 度 、 类 型 和 真实 性 。 处 理 并 
存储 大 数据 时 ， 会 涉及 更 多 维度 ， 比 如 治理 、 安 全 性 和 策略 ， 因 此 选择 一 
种 架构 并 构建 合适 的 大 数据 解决 方案 需要 考虑 非常 多 的 因素 。 这 里 提 到 的 
大 数据 架构 是 一 种 结构 化 和 基于 模式 的 方法 来 简化 定义 完整 的 大 数据 架构 
的 任务 。 评 估 一 个 业务 场景 是 否 存在 大 数据 问题 很 重要 ， 所 以 需要 包含 了 
一 些 线索 来 帮助 确定 哪些 业务 问题 适合 采用 大 数据 解决 方案 。 大 数据 技术 
全 景 如 图 2-1 所 示 。 

Hadoop 是 由 Apache 软件 基金 会 研发 的 一 种 开源 、 高 可 靠 、 伸 缩 性 强 
的 分 布 式 计 算 系 统 ， 主 要 用 于 处 理 大 于 1TB 的 海量 数据 。 它 采用 Java 语言 
开发 ， 是 对 Google 的 MapReduce 核心 技术 的 开源 实现 。 其 核心 包括 系统 
HDFS 和 MapReduce, 这 一 结构 的 实现 十 分 有 利于 面向 数据 的 系统 架构 , 因 
此 已 经 成 为 大 数据 技术 领域 的 事实 标准 。 





es 一 第 2 章 大 数据 的 架构 












































入 2.1 云 计 算 


大 数据 的 兴起 ， 即 是 信息 化 发 展 的 必然 ， 也 是 云 计 算 面临 的 挑战 。 

云 计 算 强 调 的 是 计算 ， 大 数据 则 是 计算 的 对 象 。 假 如 结合 实际 的 应 用 ， 
云 计算 更 强调 的 是 计算 能 力 ， 而 大 数据 看 中 的 是 存储 能 力 。 但 即便 这 样 ， 
并 不 表明 两 个 概念 就 如 此 泾 渭 分 明 。 一 方面 ， 大 数据 需要 处 理 大 数据 的 能 
力 ， 如 数据 获取 、 清 洗 、 转 换 、 统 计 等 ， 这 其 实 就 是 大 数据 强大 的 计算 能 
力 ; 另 一 方面 ， 云 计算 也 需要 对 数据 具有 存储 能 力 ， 比 如 在 基础 设施 即 服 
务 〈IaaS) 中 的 存储 设备 提供 的 主要 是 数据 存储 能 力 。 

数据 是 财富 的 积累 ， 大 数据 是 宝藏 ， 云 计算 是 挖掘 和 利用 宝藏 的 利器 。 
没有 强大 的 计算 能 力 ， 数 据 宝藏 终究 是 镜 中 花 ， 没 有 大 数据 的 积淀 ， 云 计 
算 也 只 能 是 把 屠刀 。 云 计算 和 大 数据 密 不 可 分 。 


2.1.1 云 计算 的 概念 


云 是 网 络 、 互 联网 的 一 种 比喻 说 法 ， 通 常 在 图 中 往往 用 云 来 表示 电信 
网 ， 后 来 也 用 云 来 表示 互联 网 和 底层 基础 设施 的 抽象 。 云 计算 〈Cloud 
Computing) 并 不 是 对 某 一 项 独立 技术 的 称呼 ， 而 是 对 实现 云 计算 模式 所 需 
要 的 所 有 技术 的 总 称 。 

自从 2006 年 谷歌 公司 CEO 埃 里 克 。 施 密 特 提出 云 计算 概念 后 ， 云 计 
算 已 经 成 为 全 球 关 注 度 最 高 的 IT 词汇 。 随 着 信息 技术 水 平 的 不 断 发 展 ， 云 
计算 将 会 成 为 引领 未 来 整个 信息 系统 建设 的 主导 者 。 

维基 百科 定义 云 计算 是 一 种 基于 互联 网 的 服务 方式 ， 提 供 动态 可 扩展 
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的 虚拟 化 的 资源 的 计算 模式 。 通 过 这 种 方式 ， 共 享 的 软 硬 件 资源 和 信息 可 
以 按 需 求 提供 给 计算 机 和 其 他 设备 ， 它 就 像 我 们 日 常生 活 中 用 水 和 用 电 一 
样 ， 按 需 付 费 ， 无 须 关心 水 电 是 从 哪里 来 的 。 

美国 国家 标准 与 技术 研究 院 (NIST) 定义 : 云 计算 是 一 种 按 使 用 量 付 
费 的 模式 ， 这 种 模式 提供 可 用 的 、 便 捷 的 、 按 需 的 网 络 访问 ， 进 入 可 配置 
的 计算 资源 共享 池 ， 这 些 资源 能 够 被 快速 提供 ， 只 需 投 入 很 少 的 管理 工作 ， 
或 与 服务 供应 商 进行 很 少 的 交互 。 

2012 年 国务 院 政府 工作 报告 将 云 计 算 作为 国家 战略 性 新 兴 产 业 给 出 了 
定义 : 基于 互联 网 的 服务 的 增加 、 使 用 和 交付 模式 ， 通 常 涉及 通过 互联 网 
来 提供 动态 易 扩 展 且 经 常 是 虚拟 化 的 资源 。 是 传统 计算 机 和 网 络 技术 发 展 
融合 的 产物 ， 它 意味 着 计算 能 力也 可 作为 一 种 商品 通过 互联 网 进行 流通 。 

云 计 算 的 概念 被 大 量 运用 到 生产 环境 中 ， 国 内 的 “阿里 云 ” 以 及 国外 
非常 成 熟 的 ntel 和 IBM， 各 种 云 计 算 的 应 用 服务 范围 正 日 渐 扩大 。 

云 计算 的 出 现 并 非 偶然 ， 它 改变 了 信息 产业 传统 格局 。 传 统 的 信息 产 
业 ， 企 业 既 是 资源 的 整合 者 又 是 资源 的 使 用 者 ， 这 就 像 一 个 空调 企业 既 要 
生产 空调 还 要 生产 稳 压 器 一 样 ， 这 样 的 格局 并 不 符合 现代 产业 分 工 高 度 专 
业 化 的 需求 ， 同 时 也 不 符合 企业 需要 灵敏 地 适应 客户 的 需要 。 传 统 的 计算 
资源 和 存储 资源 大 小 通常 是 相对 固定 的 ， 不 能 及 时 响应 客户 需求 的 不 断 变 
化 ， 这 样 的 资源 存储 要 么 是 被 浪费 ， 要 么 是 面 对 客 户 峰值 需求 时 力不从心 。 
云 计算 技术 的 出 现 ， 恰 恰 整 合 了 这 3 种 资源 ， 即 资源 的 整合 运营 者 、 资 源 
的 使 用 者 、 终 端 客户 。 

今后 ， 云 计算 将 是 一 项 随时 、 随 地 、 随 身 为 我 们 提供 服务 的 技术 。 为 
信息 产业 的 发 展 提供 无 限 的 想象 空间 ， 使 应 用 的 创新 能 力 得 到 完全 释放 。 


2.1.2 云 计算 的 特点 


云 计算 基于 资源 共享 ， 实 现 资源 的 池 化 共享 和 管理 ， 为 大 数据 提供 基 
本 的 生存 基础 ， 提 高 资源 利用 率 ， 降 低 大 数据 管理 的 复杂 性 ， 通 过 按 需 服 
务 与 交付 能 力 ， 为 数据 的 实时 应 用 环境 提供 可 能 性 。 与 传统 的 资源 提供 方 
式 相 比 ， 云 计算 具有 以 下 特点 。 

(1) 资源 池 弹 性 可 扩张 

云 计 算 系 统 具 有 一 个 重要 特征 就 是 资源 的 集中 管理 和 输出 ， 这 就 是 我 
们 通常 说 的 资源 池 。 从 资源 低 效率 的 分 散 使 用 到 资源 高 效 的 集约 化 使 用 是 
云 计算 的 基本 特征 之 一 。 分 散 的 资源 会 造成 很 大 浪费 ， 现 在 人 们 对 设备 的 
利用 率 非常 低 ， 计 算 机 在 大 量 时 间 都 是 在 等 待 状态 或 是 处 理 文字 数据 等 低 
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负荷 的 任务 。 将 资源 集中 利用 后 ， 会 大 大 提高 效率 ， 资 源 池 的 弹性 化 扩张 
能 力 成 为 云 计算 系统 的 一 个 基本 要 求 ， 云 计算 系统 只 有 具备 了 资源 的 弹性 
化 扩张 能 力 才能 有 效 地 应 对 不 断 增长 的 资源 需求 。 大 多 数 云 计算 系统 都 能 
较为 方便 地 实现 新 资源 的 加 入 。 

(2) 需求 服务 自助 化 

云 计 算 系 统 最 重要 的 一 个 好 处 就 是 敏捷 的 适应 用 户 对 资源 不 断 变 化 的 
需求 ， 实 现 按 需 向 用 户 提供 资源 能 大 大 节省 用 户 的 硬件 资源 开支 ， 用 户 不 
用 自己 购买 并 维护 大 量 固定 的 硬件 资源 ， 只 需 向 自己 实际 消费 的 资源 量 来 
付费 。 云 计算 系统 为 客户 提供 完全 自助 化 的 资源 服务 ， 采 用 自助 方式 选择 
满足 自身 需求 的 服务 项 目 和 内 容 。 

(3) 虚拟 化 

现 有 云 计 算 平 台 的 重要 特点 是 利用 软件 来 实现 硬件 资源 的 虚拟 化 管 
理 、 调 度 及 应 用 。 云 计算 支持 用 户 在 任意 位 置 、 使 用 各 种 终端 获取 应 用 服 
务 。 所 请 求 的 资源 来 自 “ 云 ”， 而 不 是 固定 的 有 形 的 实体 。 应 用 在 “ 云 ”中 
某 处 运行 ， 但 实际 上 用 户 无 须 了 解 也 不 用 担心 应 用 运行 的 具体 位 置 。 只 需 
要 一 台 笔 记 本 电脑 或 者 一 个 手机 ， 就 可 以 通过 网 络 服务 来 实现 我 们 需要 的 
一 切 ， 甚 至 包括 超级 计算 这 样 的 任务 。 

(4) 以 网 络 为 中 心 

在 最 终 用 户 看 来 ， 云 计算 系统 的 应 用 服务 通常 都 是 通过 网 络 来 提供 的 ， 
应 用 开发 人 员 将 云 计 算 中 心 的 计算 、 存 储 等 资源 封装 为 不 同 的 应 用 后 往往 
会 通过 网 络 提供 给 最 终 用 户 。 云 计算 技术 必须 实现 资源 的 网 络 化 接 入 才能 
有 效 地 向 应 用 开发 者 和 最 终 用 户 提供 资源 服务 。 所 以 说 网 络 技术 的 发 展 是 
推动 云 计算 技术 出 现 的 首要 动力 。 

(5) 高 可 靠 性 和 安全 性 

通常 用 户 的 数据 存储 于 服务 器 端 ， 然 而 应 用 程序 在 服务 器 端 运行 ， 计 
算 有 服务 器 端 来 处 理 。 所 有 的 服务 分 布 在 不 同 的 服务 器 上 ， 如 果 某 一 处 出 
现 问题 ， 就 在 某 一 处 终止 ， 另 外 再 启动 一 个 程序 或 节点 ， 即 自动 处 理 失 败 
节点 ， 从 而 保证 了 应 用 和 计算 的 正常 运行 。 

数据 被 复制 到 多 个 服务 器 节点 上 有 多 个 备份 ， 存 储 在 云 里 的 数据 即使 
遭遇 到 意外 删除 或 硬件 崩溃 也 不 会 受到 任何 影响 。 


2.1.3 ” 云 计算 的 服务 方式 


云 计算 可 以 认为 包括 以 下 3 个 层次 的 服务 : 基础 设施 即 服务 〈IaaS )， 
平台 即 服 务 (PaaS) 和 软件 即 服务 (SaaS)。 这 里 所 谓 的 层次 ， 是 分 层 体系 
架构 意义 上 的 “层次 ”。IaaS、PaaS、SaaS 分 别 在 基础 设施 层 、 软 件 开放 运 
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基础 设施 即 服 务 (Infrastructure-as-a-Service，IaaS ): 消费 者 通过 Intemet 
可 以 从 完善 的 计算 机 基础 设施 上 获得 服务 。IaaS 是 把 数据 中 心 、 基 础 设施 
等 硬件 资源 通过 Web 分 配给 用 户 的 商业 模式 。 

平台 即 服 务 (Platform-as-a-Service，PaaS ): PaaS 实际 上 是 指 将 软件 研 
发 的 平台 作为 一 种 服务 ， 以 SaaS 的 模式 提交 给 用 户 。 因 此 ,PaaS 也 是 SaaS 
模式 的 一 种 应 用 。 但 是 ，PaaSs 的 出 现 可 以 加 快 Saas 的 发 展 ， 尤 其 是 加 快 
SaaS 应 用 的 开发 速度 。PaaS 服务 使 得 软件 开发 人 员 可 以 不 购买 服务 器 等 设 
备 环境 的 情况 下 开发 新 的 应 用 程序 。 

软件 即 服务 (Software-as-a-Service，SaaS ): 它 是 一 种 通过 Internet 提 
供 软件 的 模式 ， 用 户 无 须 购买 软件 ， 而 是 向 提供 商 租 用 基于 Web 的 软件 ， 
来 管理 企业 经 营 活动 。 

SaaS 模式 大 大 降低 了 软件 ， 尤 其 是 大 型 软件 的 使 用 成 本 ， 并 且 由 于 软件 
是 托管 在 服务 商 的 服务 器 上 ， 减 少 了 客户 的 管理 维护 成 本 ， 可 靠 性 也 更 高 。 


2-2 云 平台 架构 


2.1.4 云 计 算 的 应 用 
目前 ， 市 面 上 主流 的 几 款 云 计 算 有 以 下 几 种 。 
1. 微软 云 计算 


微软 的 “ 云 计算 ”(Windows Azure) 被 认为 是 Windows NT 之 后 ，16 
年 来 最 重要 的 产品 。 发 展 最 为 迅速 。 微 软 CEO 鲍 尔 默 表 示 ， 几 年 前 ， 微 软 
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已 经 开始 提出 “软件 + 服务 ”的 模式 ， 即 在 提供 软件 的 同时 提供 服务 ， 靠 服 
务 来 挣 钱 。 现 在 这 一 模式 进一步 落实 到 了 “ 云 计 算 ” 即 微软 不 再 利用 软件 
赚钱 ， 而 是 利用 软件 的 安装 、 存 储 、 升 级 和 维护 等 赚钱 。 如 果 这 个 模式 行 
得 通 ， 将 可 能 成 为 微软 的 一 条 出 路 。 针 对 普通 用 户 ， 微 软 的 在 线 服 务 还 包 
括 Windows Live、Office Live 和 Xbox Live 等 。 





2. IBM 云 计算 


IBM 是 最 早 进入 中 国 的 云 计算 服务 提供 商 。 中 文 服务 方面 做 得 相对 较 
完善 ， 中 国 用 户 喜欢 选择 IBM 的 产品 。2007 年 IBM 发 布 的 蓝 云 计划 ， 将 
通过 分 布 式 的 全 球 化 资源 让 企业 的 数据 中 心 能 像 互 联网 一 样 运行 。 此 后 ， 
IBM 的 云 计算 将 可 能 包括 它 所 有 的 业务 和 产品 。 


3. 亚马逊 云 计算 


亚马逊 云 名 为 亚马逊 网 络 服务 AWS (Amazon Web Services)。2007 年 ， 
亚马逊 发 布 了 第 一 个 云 计算 产品 。 亚 马 逊 一 直 坚 持 云 计算 的 目的 ， 就 是 屏 
柄 底层 的 硬件 ， 为 开发 者 提供 计算 资源 以 运行 应 用 程序 。AWS， 还 有 其 母 
公司 亚马逊 ， 硬 件 都 是 一 个 竞争 优势 。 亚 马 逊 一 向 不 大 愿意 过 多 谈论 自己 
的 数据 中 心 和 系统 。 但 是 那些 竞争 对 手 们 , 包括 Google、Microsoft 和 IBM， 
则 大 肆 宣 传 在 云 计算 上 的 投入 和 创新 。 亚 马 逊 也 就 不 得 不 稍稍 揭 开 一 点 自 
己 的 神秘 面纱 。 亚 马 逊 现在 提供 的 是 可 以 通过 网 络 访问 的 存储 、 计 算 机 处 
理 、 信 息 排 队 和 数据 库 管 理 系统 接 入 式 服务 。 


4. 阿里 云 





阿里 云 (www.aliyun.com) 创立 于 2009 年 ，2017 年 1 月 成 为 奥运 会 全 
球 指定 云 服务 商 ，2017 年 3 月 ， 阿 里 云 的 付费 云 计算 用 户 达 87.4 万 。 其 致 
力 于 以 在 线 公 共 服 务 的 方式 ， 提 供 安全 、 可 靠 的 计算 和 数据 处 理 能 力 ， 让 
计算 和 人 工 智 能 成 为 普 惠 科技 。 阿 里 云 在 全 球 各 地 部 署 高 效 节能 的 绿色 数 
据 中 心 ， 利 用 清洁 计算 为 万 物 互联 的 新 世界 提供 源源 不 断 的 能 源 动 力 ， 目 
前 已 经 在 全 球 14 个 地 域 设立 有 数 十 个 飞天 数据 中 心 , 均 部 署 阿里 云 自 研 的 
飞天 操作 系统 ， 并 提供 中 、 英 、 日 3 种 语言 支持 。 

阿里 云 服务 着 制造 、 人 金融、 政务 、 交 通 、 医 疗 、 电 信 、 能 源 等 众多 领 
域 的 领军 企业 ， 包 括 中 国联 通 、12306、 中 石化 、 中 石油 、 飞 利 浦 、 华 大 基 
因 等 大 型 企业 客户 ， 以 及 微 博 、 知 和平、 锤子 科技 等 明星 互联 网 公司 。 在 天 
猫 “ 双 11” 人 全球 狂欢 节 、12306 春运 购 票 等 极 富 挑战 的 应 用 场景 中 ， 阿 里 
云 保持 着 良好 的 运行 纪录 。 
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2014 年 ， 阿 里 云 曾 帮助 用 户 抵御 全 球 互 联网 史上 最 大 的 DDoS 攻击 ， 
峰值 流量 达到 每 秒 453.8Gb。 在 Sort Benchmark 2016 排序 竞赛 CloudSort 项 
目 中 ， 阿 里 云 以 1.44$/TB 的 排序 花费 打破 了 AWS 保持 的 4.51$/TB 纪录 。 
在 Sort Benchmark 2015， 阿 里 云 利 用 自 研 的 分 布 式 计 算 平台 ODPS，377 秒 
完成 100TB 数据 排序 ， 刷 新 了 Apache Spark 1 406 秒 的 世界 纪录 。 


5. 红 帽 云 计算 


红 帆 是 云 计算 领域 的 后 起 之 秀 。 它 提供 的 是 类 似 亚马逊 弹性 云 技术 的 
纯 软 件 云 计算 平台 。 其 云 计算 基 础 架构 平台 选用 的 是 自己 的 操作 系统 和 虚 
拟 化 技术 ， 可 搭建 在 各 种 硬件 工业 标准 服务 器 和 各 种 存储 于 网 络 环境 中 ， 
表现 为 与 硬件 平台 完全 无 关 的 特性 ， 给 客户 带 来 灵活 和 可 变 的 综合 硬件 价 
格 优势 。 红 帽 的 云 计算 平台 可 实现 各 种 功能 服务 器 实例 。 

云 计算 广泛 应 用 于 智能 交通 、 医 药 医 疗 、 制 造 、 金 融 、 能 源 、 电 子 商 
务 、 电 子 政务 、 教 育 科研 等 行业 。 


6. 金融 云 


金融 云 服务 旨 在 为 银行 、 基 金 、 保 险 等 金融 机 构 提 供 IT 资源 和 互联 网 
运 维 服务 。 

2013 年 11 月 27 日 ， 阿 里 云 宣布 将 整合 阿里 巴巴 集团 旗下 各 方面 资源 
推出 阿里 金融 云 服务 。 该 服务 在 阿里 云 内 部 被 称 为 “聚宝 贫 ” 项 目 。 到 目 
前 为 止 ， 已 经 有 多 家 银行 实现 了 网 上 支付 交易 的 功能 。 另 外 ， 阿 里 云 的 云 
盾 附 加 服务 可 以 进行 应 用 、 数 据 库 、 系 统 、 网 络 安全 护航 。 


7. 教育 云 


云 计 算 在 教育 领域 中 的 迁移 称 为 “教育 云 ”， 是 未 来 教育 信息 化 的 基础 
架构 ， 包 括 教育 信息 化 所 必需 的 一 切 硬件 计算 资源 ， 这 些 资源 经 虚拟 化 之 
后 ， 向 教育 机 构 、 教 育 从 业 人 员 和 学 员 提供 一 个 良好 的 平台 ， 该 平台 的 作 
用 就 是 为 教育 领域 提供 云 服务 。 

教育 云 包括 云 计算 辅助 教学 (Cloud Computing Assisted Instruction， 
CCAI) 和 云 计算 辅助 教育 (Cloud Computing Based Education，CCBE) 多 种 
形式 。 

目前 教育 云 在 教育 领域 的 实际 应 用 主要 是 根据 国家 “十 二 五 ”规划 《 素 
质 教育 云 平 台 》 要 求 ， 教 育 网 素质 教育 云 平台 获得 教育 部 教育 信息 化 应 用 
领域 唯一 的 创新 奖 、 视 频 教育 教学 平台 在 同类 远程 教育 平台 中 处 于 先进 地 
位 、 教 学 资源 平台 和 教育 社交 平台 的 整合 应 用 为 国内 最 丰富 的 平台 。 
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8. 智慧 城市 


智慧 城市 就 是 运用 信息 和 通信 技术 手段 感 测 、 分 析 、 整 合 城市 运行 核 
心 系 统 的 各 项 关键 信息 ， 从 而 对 包括 民生 、 环 保 、 公 共 安 全 、 城 市 服务 、 
工商 业 活动 在 内 的 各 种 需求 做 出 智能 响应 。 其 实质 是 利用 先进 的 信息 技术 ， 
实现 城市 智慧 式 管理 和 运行 ， 进 而 为 城市 中 的 人 创造 更 美好 的 生活 ， 促 进 
城市 的 和 谐 、 可 持续 成 长 。 

2013 年 1 月 29 日 ， 住 房 城乡 建设 部 公布 首 批 国家 智慧 城市 试点 名 单 。 
首 批 国家 智慧 城市 试点 共 90 个 ， 其 中 地 级 市 37 个 ,区 (县) 50 个 , 镇 3 
个 。 国 家 开发 银行 表示 ， 在 “十 二 五 ”后 三 年 ， 与 住 建部 合作 投资 智慧 城 
市 的 资金 规模 将 达 800 亿 元 。 
根据 《2015 一 2020 年 中 国 智慧 城市 建设 行业 发 展 趋势 与 投资 决策 支持 
报告 前 瞻 》 调 查 数据 显示 ， 我 国 已 有 311 个 地 级 市 开展 数字 城市 建设 ， 其 
中 158 个 数字 城市 已 经 建成 并 在 60 多 个 领域 得 到 广泛 应 用 ， 同 时 最 新 启动 
了 100 多 个 数字 县 域 建设 和 3 个 智慧 城市 建设 试点 。2013 年 ， 国 家 测绘 地 
理 信 息 局 将 在 全 国 范围 内 组 织 开 展 智 慧 城市 时 空 信息 云 平 台 建 设 试点 工 
作 ， 每 年 将 选择 10 个 左右 城市 进行 试点 ， 每 个 试点 项 目 建设 周期 为 2 一 3 
年 ， 经 费 总 投入 不 少 于 3 600 万 元 。 在 不 久 的 将 来 ， 人 们 将 尽 享 智能 家 居 、 
路 网 监控 、 智 能 医院 、 食 品 药品 管理 、 数 字 生 活 等 所 带 来 的 便捷 服务 ,“ 智 
慧 城市 ”时 代 已 经 到 来 。 

















2.2 大 数据 架构 介绍 


我 们 在 设计 大 数据 解决 方案 时 会 发 现 ， 设 计 一 个 好 的 大 数据 解决 方案 
是 一 个 非常 复杂 的 工作 ， 其 涉及 的 因素 需要 了 解 大 数据 的 数据 类 型 ， 在 了 
解数 据 类 型 之 前 ， 应 了 解 大 数据 的 分 类 。 


2.2.1 大 数据 的 分 类 


大 数据 就 是 使 用 新 的 系统 、 工 具 和 模型 对 大 量 、 动 态 、 能 持续 的 数据 
进行 挖掘 ， 从 而 获得 具有 新 价值 的 数据 。 在 以 往 的 数字 信息 分 析 中 ， 我 们 
面 对 庞 大 的 数据 ， 认 为 它 只 是 历史 数据 的 一 部 分 ， 仅 仅 起 到 记录 以 及 追溯 
根源 的 作用 ， 但 是 并 不 能 真正 了 解 到 这 些 数据 的 实际 本 质 ， 从 中 获取 正确 
推断 的 机 会 ， 而 大 数据 时 代 的 来 临 ， 使 我 们 可 以 正确 的 使 用 和 分 析 这 些 数 
据 。 根 据 数据 类 型 ， 按 特定 方向 分 析 大 数据 的 特征 会 有 所 帮助 ， 例 如 数据 
如 何 收 集 、 分 析 和 处 理 。 对 数据 进行 分 类 后 ， 就 可 以 将 它 与 合适 的 大 数据 
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模式 匹配 。 
我 们 站 在 不 同 角度 对 大 数据 进行 分 类 ， 大 体 分 为 以 下 几 种 类 型 。 


1. 按 数据 类 型 划分 


按 数据 类 型 进行 划分 ， 大 数据 可 以 分 为 以 下 3 类 。 

(1) 传统 企业 数据 (Traditional Enterprise Data): 包括 MIS 系统 的 数据 、 
传统 的 ERP 数据 、 库 存 数据 以 及 财务 账目 数据 等 。 

(2) 机 器 和 传感器 数据 (Machine-generated/sensor Data): 包括 呼叫 记 
录 (Call Detail Records)、 智 能 仪表 、 工 业 设 备 传感器 、 设 备 日 志 、 交 易 数 
据 等 。 

(3) 社交 数据 (Socialdata): 包括 用 户 行为 记录 、 反 馈 数 据 等 ， 如 Twitter、 
Facebook 这 样 的 社交 媒体 平台 。 


2. 按 处 理 过 程 划分 


除了 大 数据 的 数据 类 型 ， 根 据 数据 处 理 过 程 中 的 区 别 ， 大 数据 计算 可 
以 分 为 5 种 不 同 的 类 型 。 

(1) 海量 型 数据 。 大 数据 计算 中 的 数据 挖掘 是 通过 挖掘 海量 的 数据 推 
动 科 学 知识 的 界限 ， 数 据 集 越 大 ， 结 论 越 精确 。 但 随 着 海量 数据 而 来 的 问 
题 是 数据 将 如 何 存放 、 存 放 在 什么 地 方 、 如 何 实现 数据 共享 。 很 多 大 数据 
计算 领先 的 实验 室 也 已 经 发 现 自己 不 堪 重 负 。 

(2) 响应 型 数据 。 响 应 型 的 数据 集 很 大 ， 但 它 的 价值 围绕 着 很 具 价值 
的 分 析 结 果 ， 例 如 ， 一 个 根据 近 实时 数据 做 出 的 精确 车 流 预 测 要 比 一 个 小 
时 之 后 通过 实时 监测 才能 得 到 的 完美 分 析 要 好 很 多 。 事 实 上 ， 这 是 一 种 大 
多 数 企业 将 会 用 到 的 一 种 大 数据 应 用 。 

(3) 影 随 型 数据 。 影 随 型 数据 是 一 种 你 可 以 拥有 ， 但 并 不 容易 拿 到 的 
数据 。 大 部 分 数据 是 非 结构 化 数据 ， 如 视频 流 、 照 片 、 手 写意 见 卡 、 保 安 
亭 的 出 入 数据 。 但 是 挖掘 这 些 数 据 并 不 容易 。 数 据 量 太 大 ， 需 要 庞大 的 计 
算 量 才能 够 找 出 相关 的 场景 。 

(4) 过 程 型 数据 。 又 称 为 操作 数据 。 这 是 从 生产 设备 、 工 业 机 械 和 其 
他 在 商业 建筑 和 工业 厂房 里 找到 的 信息 。 这 不 是 技术 上 的 丢失 ， 问 题 在 于 
这 些 数据 是 在 操作 系统 内 部 。 

(5) 未 知 型 数据 。 未 知 型 数据 包括 现在 可 以 能 够 拿 到 的 、 希 望 拿 到 
的 、 然 而 还 不 充足 的 信息 。 例 如 ， 全 世界 每 年 约 有 86 000 亿 加 仑 石油 在 
流入 管道 时 丢失 ， 这 足以 填 满 一 个 胡 佛 水 坝 ， 如 何 设计 一 个 算法 查 明 其 


。 一 第 2 章 大 数据 的 架构 25 一 


3. 按 产 生 数 据 的 主题 划分 

(1) 少量 企业 应 用 产生 的 数据 ， 比 如 关系 型 数据 库 中 的 数据 和 数据 仓 
库 中 的 数据 等 。 

(2) 大 量 人 产生 的 数据 ， 比 如 微 信 、 移 动 通信 数据 、 电 子 商 务 在 线 交 
易 日 志 数据 、 企 业 应 用 的 相关 评论 数据 等 。 

(3) 巨 量 机 器 产生 的 数据 ， 比 如 应 用 服务 器 日 志 、 图 像 和 视频 监控 数 
据 、 二 维 码 和 条 形 码 扫描 数据 等 。 


4. 按 大 数据 架构 划分 




















按 大 数据 架构 进行 划分 ， 大 数据 分 类 如 图 2-3 所 示 。 
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2-3 ”大 数据 分 类 
(1) 分 析 类 型 。 判 断 进 行 数据 分 析 时 ， 对 数据 执行 实时 分 析 还 是 批量 
分 析 。 要 认真 考虑 分 析 类 型 的 选择 ， 否 则 影响 一 些 有 关 产 品 、 工 具 、 硬 件 、 
数据 源 和 预期 的 数据 频率 的 其 他 决策 。 部 分 用 例 需 要 混合 使 用 两 种 类 型 ， 
分 别 是 欺诈 检测 和 针对 战略 性 业务 决策 的 趋势 分 析 。 其 中 欺诈 检测 分 析 必 
须 实时 或 近 实 时 地 完成 。 针 对 战略 性 业务 决策 的 趋势 分 析 可 采用 批量 模式 。 
(2) 处 理 方法 。 用 来 处 理 数据 的 技术 类 型 (如 预测 、 分 析 、 临 时 查询 
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和 报告 )。 业 务 需 求 确定 了 合适 的 处 理 方法 。 处 理 方法 的 选择 ， 有 助 于 识别 
要 在 大 数据 解决 方案 中 使 用 的 合适 的 工具 和 技术 。 

(3) 数据 频率 和 大 小 。 预 计 有 多 少数 据 和 数据 到 达 的 频率 有 多 高 。 知 
道 频率 和 大 小 ， 有 助 于 确定 存储 机 制 、 存 储 格式 及 所 需 的 预 处 理工 具 。 数 
据 频 率 和 大 小 依赖 于 数据 源 ， 数 据 源 的 表现 形式 有 3 种 : 

口 ” 按 需 分 析 ， 与 社交 媒体 数据 一 样 。 

口 实时、 持续 提供 (天 气 数据 、 交 易 数 据 )。 

口 时 序 ( 基 于 时 间 的 数据 )。 

(4) 数据 类 型 。 要 处 理 数据 的 类 型 ， 如 交易 、 历 史 、 主 数据 等 。 当 知 
道 数据 类 型 后 ， 有 助 于 将 数据 隔离 在 存储 中 。 

(5) 内 容 格式 〈 传 入 数据 的 格式 ) 结构 化 〈 例 如 RDMBS)、 非 结构 化 
〈 例 如 音频 、 视 频 和 图 像 ) 或 半 结 构 化 。 格 式 确定 了 需要 如 何 处 理 传 入 的 数 
据 ， 这 是 选择 工具 、 技 术 以 及 从 业务 角度 定义 解决 方案 的 关键 。 

(6) 数据 源 。 即 数据 的 来 源 〈 生 成 数据 的 地 方 )， 如 Web 和 社交 媒体 、 
机 器 生成 、 人 类 生成 等 。 识 别 所 有 数据 源 有 助 于 从 业务 角度 识别 数据 范围 。 

(7) 数据 使 用 者 。 处 理 数据 的 所 有 可 能 使 用 者 的 情况 列表 ， 包 括 业 务 
流程 、 业 务 用 户 、 企 业 应 用 程序 、 各 种 业务 角色 中 涉及 的 人 员 、 部 分 处 理 
流程 、 其 他 数据 存储 库 或 企业 应 用 程序 。 

(8) 硬件 。 用 来 实现 大 数据 解决 方案 的 硬件 类 型 ， 包 括 商 用 硬件 或 最 
先进 的 硬件 。 


2.2.2 ”数据 类 型 


传统 的 数据 类 型 是 指 在 数据 结构 中 的 定义 是 一 个 值 的 集合 以 及 定义 在 
这 个 值 集 上 的 一 组 操作 。 变 量 是 用 来 存储 值 的 ， 它 们 有 名 字 和 数据 类 型 。 
变量 的 数据 类 型 决定 了 如 何 将 代表 这 些 值 的 位 存储 到 计算 机 的 内 存 中 。 在 
声明 变量 时 也 可 指定 它 的 数据 类 型 。 所 有 变量 都 具有 数据 类 型 ， 以 决定 能 
够 存储 哪 种 数据 。 

数据 类 型 包括 原始 类 型 、 多 元 组 、 记 录 单 元 、 代 数 数据 类 型 、 抽 象 数 
据 类 型 、 参 考 类 型 以 及 函数 类 型 。 

然而 ， 大 数据 时 代 的 来 临 ， 数 据 量 的 激增 越 来 越 明 显 ， 各 种 各 样 的 数 
据 铺 天 盖 地 地 砸 下 来 ， 企 业 在 选择 相应 工具 来 存储 、 分 析 与 处 理 它们 的 同 
时 也 在 寻找 将 数据 最 优化 处 理 的 工具 。 从 Excel、BI 工具， 到 现在 最 新 的 可 
视 化 数据 分 析 工 具 ， 数 据 分 析 软 件 进步 越 来 越 快 ， 那 么 在 大 数据 时 代 中 ， 
又 有 哪些 数据 类 型 出 现 呢 ? 

(1) 移动 互联 网 出 现 后 ， 移 动 设 备 的 很 多 传感器 收集 了 大 量 的 用 户 点 击 








行为 数据 ， 已 知 iPhone 有 3 个 传感器 ， 三 星 有 6 个 传感器 。 它 们 每 天 产生 了 
大 量 的 点 击 数据 ， 这 些 数据 被 某 些 公司 所 拥有 ， 形 成 用 户 大 量 行为 数据 。 

(2) 电子 地 图 。 如 高 德 、 百 度 、 凯 立 德 地 图 出 现 后 ， 产 生 了 大 量 的 数 
据 流 数 据 ， 这 些 数据 有 别 于 传统 数据 ， 传 统 数据 代表 一 个 属性 或 一 个 度量 
值 ， 但 这 些 地 图 产生 的 流 数 据 代 表 着 一 种 行为 、 一 种 习惯 ， 这 些 流 数据 经 
频率 分 析 后 会 产生 巨大 的 商业 价值 。 基 于 地 图 产生 的 数据 流 是 一 种 新 型 的 
数据 类 型 ， 是 值得 去 分 析 研究 的 。 

(3) 社交 网 络 的 出 现 ， 如 微 博 、 微 信 、QQ 等 。 互 联网 行为 主要 由 用 户 
参与 创造 ， 大 量 的 互联 网 用 户 创造 出 海量 的 社交 行为 数据 ， 这 些 数据 是 过 
去 没有 出 现 过 的 。 其 揭示 了 人 们 的 行为 特点 和 生活 习惯 ， 我 们 将 它 划 为 行 
为 数据 ， 上 共有 很 大 的 隐藏 价值 。 

(4) 电子 商务 的 崛起 带 来 了 大 量 的 网 上 交易 数据 ， 这 里 面包 含 支付 数 
据 、 查 询 行为 、 物 流 运输 、 购 买 喜好 、 点 击 顺序 、 评 价 习 惯 等 ， 这 些 都 属 
于 信息 流 和 资金 流 数 据 ， 这 些 数 据 的 产生 为 大 数据 的 研究 带 来 了 很 大 的 契 
机 ， 其 中 隐藏 了 更 大 的 商业 价值 。 

(5) 传统 的 互联 网 入 口 转向 搜索 引擎 之 后 ， 用 户 的 搜索 行为 和 提问 行 
为 聚集 了 海量 数据 。 单 位 存储 价格 的 下 降 也 为 存储 这 些 数据 提供 了 经 济 上 
的 可 能 性 。 

目前 ， 大 数据 不 同 于 过 去 传统 的 数据 ， 其 产生 方式 、 存 储 载 体 、 访 问 
方式 、 表 现形 式 、 来 源 特点 等 都 同 传统 数据 不 同 。 大 数据 更 接近 于 某 个 群 
体 行 为 数据 ， 它 是 全 面 的 数据 、 准 确 的 数据 、 有 价值 的 数据 。 这 些 新 类 型 
数据 已 经 普及 在 生活 中 ， 我 们 已 经 不 再 陌生 。 

我 们 在 做 大 数据 分 析 时 ， 有 以 下 4 种 数据 类 型 可 供 参 考 : 

(1) 交易 数据 (TRANSACTION DATA )。 使 用 大 数据 平台 能 够 帮助 我 
们 获取 时 间 跨 度 更 大 、 更 海量 的 结构 化 交易 数据 ， 这 样 就 能 够 对 更 广泛 的 
交易 数据 类 型 进行 数据 分 析 ， 其 中 不 仅 包括 POS 或 电子 商务 购物 数据 ， 还 
包括 行为 交易 数据 。 

(2) 人 为 数据 (HUMAN-GENERATED DAIA)。 非 结构 化 数据 广泛 应 
用 并 存在 于 电子 邮件 、 文 档 、 图 片 、 音 频 、 视 频 中 ， 同 时 通过 博客 、 维 基 ， 
尤其 是 社交 媒体 所 产生 的 数据 流 。 这 些 数 据 为 使 用 文本 分 析 功 能 进行 分 析 
提供 了 丰富 的 数据 资源 。 

(3) 移动 数据 (MOBILE DAIA)。 现 在 智能 手机 和 平板 电脑 越 来 越 普 
遍 。 这 些 移动 设备 上 的 App 都 能 够 追踪 和 沟通 大 量 事件 ， 从 App 内 的 交易 
数据 (如 搜索 产品 的 记录 事件 ) 到 个 人 信息 资料 或 状态 报告 事件 (如 地 点 
变更 即 报告 一 个 新 的 地 理 编码 )。 








(4) 机 器 和 传感器 数据 。 包 括 使 用 设备 创建 或 生成 的 数据 ， 如 智能 电 
表 、 智 能 温度 控制 器 、 工 厂 机 器 和 连接 互联 网 的 家 用 电器 。 这 些 设 备 可 以 
配置 为 与 互联 网 络 中 的 其 他 节点 之 间 通 信 ， 还 可 以 自动 向 中 央 服 务 器 进行 
数据 的 传输 ， 通 过 这 样 的 方式 可 以 对 数据 进行 分 析 。 机 器 和 传感器 数据 是 
来 自 新 兴 的 物 联网 (IoT) 所 产生 的 主要 例子 。 物 联网 的 数据 可 以 用 于 构建 
分 析 模 型 ， 连 续 监测 预测 性 行为 ， 提 供 规定 的 指令 ， 做 出 及 时 正确 的 判断 。 


2.2.3 ”大 数据 解决 方案 


随 着 移动 互联 网 的 普及 ， 如 位 置 、 生 活 信息 等 富 含 价值 的 数据 ， 现 有 
的 或 者 传统 的 对 数据 的 处 理 手段 和 硬件 配置 ， 已 越 来 越 跟 不 上 数据 发 展 的 
步伐 ， 当 我 们 传 入 数据 的 数量 、 种 类 和 速度 太 大 ， 以 至 于 难以 实时 处 理 和 
使 用 当前 的 关系 数据 库 时 ， 就 会 采用 大 数据 的 解决 方案 进行 设计 。 

在 采用 大 数据 方案 解决 问题 时 ， 应 熟悉 项 目的 实际 状况 ， 熟 悉 项 目的 
建设 流程 ， 弄 清 大 数据 分 析 技 术 的 原理 ， 架 构 ， 设 计 理念 ， 以 及 掌握 大 数 
据 的 关键 技术 ， 才 可 以 从 容 不 迫 地 对 待 建设 项 目 进行 调研 实施 。 


1. 大 数据 的 体系 架构 


(1) 架构 的 概念 

架构 ， 又 称 软件 架构 ， 是 有 关 软 件 整体 结构 与 组 件 的 抽象 描述 ， 用 于 
指导 大 型 软件 系统 各 个 方面 的 设计 。 软 件 架构 是 一 个 系统 的 草图 ， 是 构建 
计算 机 软件 实践 的 基础 。 好 比 设计 人 员 对 房屋 进行 设计 ， 作 为 绘图 员 画 图 
一 样 ， 一 个 软件 架构 师 或 者 系统 架构 师 陈 述 软 件 构架 以 作为 满足 不 同 客户 
需求 的 实际 系统 设计 方案 的 基础 。 软 件 系统 的 架构 有 两 个 要 素 : 首先 他 是 
一 个 软件 系统 从 整体 到 部 分 的 最 高 层 的 划分 ， 再 则 一 个 系统 通常 是 由 元 件 
组 成 ， 而 这 些 元 件 如 何 形 成 、 相 互 之 间 怎 样 发 生 作 用 ， 就 是 这 个 系统 本 身 
结构 的 问题 。 所 以 说 软件 架构 是 平衡 的 艺术 。 

软件 架构 是 对 存储 在 Active Directory 中 的 对 象 类 别 和 属性 进行 的 描 
述 。 对 于 每 一 个 对 象 类 别 来 说 ， 该 架构 定义 了 对 象 类 必须 具有 的 属性 ， 它 
也 可 以 有 附加 的 属性 ， 并 且 该 对 象 可 以 是 它 的 父 对 象 。 可 以 动态 更 新 的 
Active Directory 架构 。 应 用 程序 可 以 使 用 新 的 属性 和 类 扩展 该 架构 ， 并 能 
立刻 使 用 该 扩展 。 通 过 在 Active Directory 中 创建 或 修改 存储 在 Active 
Directory 中 的 架构 对 象 来 完成 架构 的 更 新 。 与 Active Directory 中 的 所 有 对 
象 一 样 ， 架 构 对 象 能 访问 控制 列表 ， 因 此 只 有 授权 的 用 户 才 可 以 更 改 架构 。 
这 便 是 软件 架构 的 特性 。 要 想 设计 一 个 高 性 能 的 系统 架构 ， 就 要 使 系统 对 
于 用 户 的 商业 经 营 和 管理 来 讲 具 有 较 高 的 可 靠 性 ， 保 证 系统 交易 中 承担 较 








高 的 商业 价值 ， 即 系统 的 安全 性 ， 系 统 必 须 能 够 在 用 户 的 使 用 率 、 用 户 的 
数目 增加 很 快 的 情况 下 ， 保 持 合理 的 性 能 ， 这 就 对 系统 的 可 扩展 性 提出 来 
新 的 要 求 ， 对 于 同一 套 软件 而 言 ， 要 能 够 根据 客户 群 和 市 场 需求 的 不 同 进 
行 变 化 ， 允 许 软件 进行 定制 ， 当 新 技术 出 现时 ， 系 统 应 允许 将 新 技术 导入 ， 
从 而 对 现 有 系统 进行 功能 和 性 能 的 扩展 ， 使 系统 具有 可 伸缩 性 ， 系 统 应 有 
可 维护 性 ， 首 先 在 软件 系统 的 维护 方面 ， 一 要 排除 现 有 错误 ， 二 要 将 新 的 软 
件 需求 反映 到 现 有 系统 中 去 ， 软 件 系统 应 多 让 用 户 进行 体验 ， 来 提高 系统 的 
性 能 ， 同 时 还 要 面 对 同行 业 的 竞争 和 新 技术 的 出 现 ， 抓 住 最 佳 商 业 时 机 。 

大 数据 技术 与 架构 技术 相 结合 ， 能 够 实现 数据 的 智能 应 用 。 架 构 考虑 
的 要 点 如 图 2-4 所 示 。 
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图 2-4 架构 考虑 的 要 点 


(2) 传统 数据 库 技术 架构 

这 里 以 Oracle 数据 库 为 例 , 如 图 2-5 所 示 , 由 3 部 分 组 成 ，User Process、 
Server Process、PGA 可 以 看 做 成 Clinet 端 ， 实例 (Instance〉 和 数据 库 
(Database) 及 参数 文件 (parameter files)、 密 码 文件 (password files) 和 归 
档 日 志文 件 (archived log files) 组 成 Oracle Server， 属 于 C/S 架构 。 

Oracle Server 由 两 个 实体 组 成 : 实例 (instance) 与 数据 库 (database ) 。 
两 个 实体 连 在 一 起 ， 但 相互 独立 。 在 数据 库 创 建 过 程 中 ， 首 先 被 创建 的 是 
实例 ， 然 后 才 创 建 数据 库 。 在 单 实例 环境 中 ， 实 例 与 数据 库 是 一 对 一 的 ， 
一 个 实例 连接 一 个 数据 库 。 实 例 与 数据 库 也 可 以 是 多 对 一 的 关系 。 多 对 一 
关系 被 称 为 实际 应 用 群集 (Real Application Clusters，RAC)，RAC 极 大 提 
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2-5 ”Oracle 数据 库 体系 架构 


高 了 数据 库 的 性 能 、 容 错 与 可 伸缩 性 〈 可 能 耗费 更 多 的 存储 空间 ) 并且 是 
Oracle 网 格 〈grid) 概念 的 必 备 部 分 。 

Oracle 体系 架构 主要 有 两 大 部 分 组 成 : 数据 库 实 例 〈Instance) 和 数据 
库 文件 (database ) 。 

数据 库 实例 指 用 来 访问 一 个 数据 库 文件 集 的 一 个 存储 结构 及 后 台 进 程 
的 集合 ， 简 单 说 就 是 数据 库 服务 器 的 内 存 及 相关 处 理 程序 ， 是 Oracle 的 心 
脏 。 与 Oracle 性 能 关系 最 大 的 是 SGA (System Global Area， 即 系统 全 局 区 
或 共享 内 存 区 )，SGA 包含 3 个 部 分 : 


口 ”数据 缓冲 区 ， 是 SGA 的 一 个 高 速 缓存 区 域 ， 可 避免 重复 读 取 常 用 
的 数据 。 
口 “日 志 缓冲 区 ， 提 升 了 数据 增删 改 的 速度 ， 减 少 磁盘 的 读 写 而 加 快 


口 ”共享 池 ， 使 相同 的 SQL 语句 不 再 编译 ， 提 升 了 SQL 的 执行 速度 ， 
共享 池 的 大 小 《以 字 节 为 单位 ) 由 init.ora 文件 参数 SHARED 
POOL SIZE 决定 。 
Oracle 数据 库 实例 的 另 一 部 分 是 一 些 后 台 进程 了 ， 主 要 包括 系统 监控 
这 些 后 台 进 程 合 起 来 完成 数据 库 管 理 任务 。 
在 访问 数据 库 的 时 候 。 服 务 器 后 台 先 启动 实例 。 启 动 实例 前 要 先 分 配 
内 存 区 。 然 后 再 启动 后 台 进 程 。 数 据 库 启动 过 程 中 必须 启动 上 面 的 前 5 个 
进程 。 和 否则 实例 无 法 创建 。 


(3) 大 数据 技术 架构 
典型 的 开源 大 数据 架构 如 图 2-6 所 示 。 
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图 2-6 ”典型 的 开源 大 数据 架构 Lambda Architecture 


大 数据 的 架构 技术 ， 可 以 从 图 2-7 一 图 2-9 直观 地 看 出 ， 图 2-7 描述 
了 大 数据 的 分 层 架构 ， 从 数据 的 生命 周期 看 ， 大 数据 从 数据 源 经 过 分 析 
挖掘 直到 最 终 获 得 价值 需要 经 过 5 个 环节 ， 包 括 数据 准备 、 数 据 存储 与 
管理 、 计 算 处 理 、 数 据 分析 和 知识 展现 。 图 2-8 是 对 大 数据 整体 的 系统 
架构 ， 图 2-9 则 为 大 数据 整体 逻辑 功能 架构 。 图 2-7 一 图 2-9 相互 独立 又 
不 失 连 贯 。 
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数据 存储 (SQL 和 NoSQL) (2) 存储 管理 


数据 导 人 (ETL、 提 取 、 转 换 、 加 载 ) (1) 数据 准备 
| 数据 源 (互联 网 、 物 联网 、 企 业 数 据 等 ) | 
图 2-7 大 数据 架构 : 分 层 架 构 
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32 大 数据 导论 
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图 2-8 大 数据 的 系统 架构 : 整体 系统 架构 
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图 2-9 大 数据 架构 : 整体 逻辑 功能 架构 
2. 大 数据 架构 关键 技术 


大 数据 架构 的 关键 技术 ， 有 助 于 帮助 我 们 合理 规划 设计 目标 系统 的 建 
设 ， 定 义 合理 科学 的 建设 问题 解决 方案 。 大 数据 解决 方案 的 逻辑 层 可 以 帮 
助 定义 和 分 类 各 个 必要 的 组 件 ， 需 要 使 用 这 些 组 件 来 满足 给 定 业 务 项 目的 
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功能 性 和 非 功能 性 需求 。 这 些 逻 辑 层 列 出 了 大 数据 解决 方案 的 关键 组 件 ， 
包括 从 各 种 数据 源 获取 数据 的 位 置 ， 以 及 向 需要 观察 的 流程 、 设 备 和 人 员 
提供 业务 能 力 所 需 的 分 析 。 

(1) 大 数据 存储 技术 

典型 的 大 数据 存储 技术 有 以 下 3 种 。 

第 一 种 是 采用 MPP 架构 的 新 型 数据 库 集群 ， 重 点 面向 行业 大 数据 ， 采 
用 Shared Nothing 架构 ， 通 过 列 存储 、 粗 粒度 索引 等 多 项 大 数据 处 理 技术 ， 
再 结合 MPP 架构 高 效 的 分 布 式 计算 模式 ， 完 成 对 分 析 类 应 用 的 支撑 ， 运 行 
环境 多 为 低 成 本 PC Server， 具 有 高 性 能 和 高 扩展 性 的 特点 ， 在 企业 分 析 类 
应 用 领域 获得 极其 广泛 的 应 用 。 这 类 MPP 产品 可 以 有 效 支撑 PB 级 别 的 结 
构 化 数据 分 析 ， 这 是 传统 数据 库 技术 无 法 胜任 的 。 对 于 企业 新 一 代 的 数据 
仓库 和 结构 化 数据 分 析 ， 目 前 选择 是 MPP 数据 库 。 

第 二 种 是 基于 Hadoop 的 技术 扩展 和 封装 ， 围 绕 Hadoop 衍生 出 相关 的 
大 数据 技术 ， 应 对 传统 关系 型 数据 库 较 难处 理 的 数据 和 场景 ， 例 如 针对 非 
结构 化 数据 的 存储 和 计算 等 ， 充 分 利用 Hadoop 开源 的 优势 ， 伴 随 相 关 技 术 
的 不 断 进步 ， 其 应 用 场景 也 将 逐步 扩大 ， 目 前 典型 的 应 用 场景 就 是 通过 扩 
展 和 封装 Hadoop 来 实现 对 互联 网 大 数据 存储 、 分 析 的 支撑 。 这 里 面 有 几 
十 种 NoSQL 技术 ， 也 在 进一步 的 细 分 。 对 于 非 结构 、 半 结构 化 数据 处 理 、 
复杂 的 ETL 流程 、 复 杂 的 数据 挖掘 和 计算 模型 ，Hadoop 平台 更 擅长 。 

第 三 种 是 大 数据 一 体 机 ， 这 是 一 种 专 为 大 数据 的 分 析 处 理 而 设计 的 软 、 
硬件 结合 的 产品 ， 由 一 组 集成 的 服务 器 、 存 储 设备 、 操 作 系 统 、 数 据 库 管 
理 系统 以 及 为 数据 查询 、 处 理 、 分 析 用 途 而 特别 预先 安装 及 优化 的 软件 组 
成 ， 高 性 能 大 数据 一 体 机 有 具有 良好 的 稳定 性 和 纵向 扩展 性 。 

(2) 并 行 计 算 能 力 

所 谓 并 行 计算 (Parallel Computing) 是 指 同时 使 用 多 种 计算 资源 解决 计 
算 问题 的 过 程 ， 是 提高 计算 机 系统 计算 速度 和 处 理 能 力 的 一 种 有 效 手段 。 
其 基本 思想 是 采用 多 个 处 理 器 来 协同 解决 问题 ， 即 将 被 求解 的 问题 分 解 成 
若干 个 部 分 ， 各 部 分 均 由 一 个 独立 的 处 理 机 来 并 行 计算 。 并 行 计 算 系 统 既 
可 以 是 专门 设计 的 、 含 有 多 个 处 理 器 的 超级 计算 机 ， 也 可 以 是 以 某 种 方式 
连接 的 若干 台独 立 计算 机 构成 的 集群 。 通 过 并 行 计算 集群 完成 数据 的 处 理 
工作 ， 再 将 处 理 的 结果 返回 给 用 户 ， 如 图 2-10 所 示 。 

并 行 计 算 在 学 科 领 域 中 主要 研究 的 是 空间 上 的 并 行 问题 。 从 程序 设计 
人 员 的 角度 来 看 ， 并 行 计算 又 可 分 为 数据 并 行 和 任务 并 行 。 通 常 来 讲 ， 因 
为 数据 并 行 主要 是 将 一 个 大 任务 化 解 成 相同 的 各 个 子 任务 ， 比 任务 并 行 要 
容易 处 理 。 空 间 上 的 并 行 导 致 了 两 类 并 行 机 的 产生 , 按照 Flynn 的 说 法 分 为 : 
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图 2-10 ”大 规模 分 布 式 并 行 计算 


单 指令 流 多 数据 流 (SIMD) 和 多 指令 流 多 数据 流 (MIMD )。 我 们 常用 的 串 
行 机 也 叫 作 单 指令 流 单 数据 流 (SISD)。MIMD 类 的 机 器 又 可 分 为 以 下 常见 
的 五 类 : 并 行 向 量 处 理 机 (PVP)、 对 称 多 处 理 机 〈SMP)、 大 规模 并 行 处 理 
机 (MPP)、 工 作 站 机 群 (COW)、 分 布 式 共享 存储 处 理 机 (DSM)。 
大 数据 的 分 析 技 术 是 数据 密集 型 计算 ， 需 要 计算 机 拥有 巨大 的 计算 
能 力 ， 针 对 不 同 计算 场景 发 展 出 特定 分 布 式 的 计算 框架 。 比 如 Yahoo 提 
出 的 S4 系统 、Twitter 的 Storm， 谷 歌 2010 年 公布 的 Dremel 系统 ， 
MapReduce 内 存 化 以 提高 实时 性 的 Spark 框架 等 都 合理 地 利用 了 大 数据 
的 并 行 计算 方式 。 
(3) 数据 分 析 技 术 
于 大 数据 复杂 多 变 的 特殊 属性 ， 目 前 还 没有 公认 的 大 数据 分 析 方 法 
体系 ， 不 同 的 学 者 对 大 数据 分 析 方 法 的 看 法 各 异 。 总 结 起 来 ， 包 括 3 种 方 
法 体系 ， 分 别 是 面向 数据 视角 的 分 析 方 法 、 面 向 流程 视角 的 分 析 方 法 和 面 
向 信息 技术 视角 的 分 析 方法 。 
口 面向 数据 视角 的 大 数据 分 析 方 法 : 主要 是 以 大 数据 分 析 处 理 的 对 
象 “数据 ”为 依据 ， 从 数据 本 身 的 类 型 、 数 据 量 、 数 据 处 理 方式 
以 及 数据 能 够 解决 的 具体 问题 等 方面 对 大 数据 分 析 方 法 进行 分 
类 。 如 利用 历史 数据 及 定量 工具 进行 回溯 性 数据 分 析 来 对 模式 加 
以 理解 并 对 未 来 做 出 推论 ， 或 者 利用 历史 数据 和 仿真 模型 对 即将 
发 生 的 事件 进行 预测 性 分 析 。 

口 面向 流程 视角 的 大 数据 分 析 方 法 : 主要 关注 大 数据 分 析 的 步骤 和 
阶段 。 一 般 而 言 ， 大 数据 分 析 是 一 个 多 阶段 的 任务 循环 执行 过 程 。 
一 些 专家 学 者 按照 数据 搜集 、 分 析 到 可 视 化 的 流程 ， 梳 理 了 一 些 
适用 于 大 数据 的 关键 技术 ， 包 括 神经 网 络 、 遗 传 算法 、 回 归 分 析 、 
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聚 类 、 分 类 、 数 据 挖 掘 、 关 联 规则 、 机 器 学 习 、 数 据 融 合 、 自 然 
语言 处 理 、 网 络 分 析 、 人 情感 分 析 、 时 间 序 列 分 析 、 空 间 分 析 等 ， 
为 大 数据 分 析 提 供 了 丰富 的 技术 手段 和 方法 。 
口 面向 信息 技术 视角 的 大 数据 分 析 方 法 : 强调 大 数据 本 身 涉 及 的 新 
型 信息 技术 ， 从 大 数据 的 处 理 架 构 、 大 数据 系统 和 大 数据 计算 模 
式 等 方面 来 探讨 具体 的 大 数据 分 析 方 法 。 
实际 上 ， 现 实 中 往往 综合 使 用 这 3 种 大 数据 分 析 方 法 。 综 合 来 看 ， 大 
数据 分 析 方法 正 逐 步 从 数据 统计 〈Statistics) 转向 数据 挖掘 (Mining)， 并 
进一步 提升 到 数据 发 现 (Discovery) 和 预测 (Prediction )。 
(4) 数据 显示 技术 
数据 可 视 化 主要 旨 在 借助 于 图 形 化 手段 ， 清 晰 有 效 地 传达 与 沟通 信息 。 
但 是 ， 这 并 不 意味 着 数据 可 视 化 就 一 定 因为 要 实现 其 功能 用 途 而 令 人 感到 
枯燥 乏味 ， 或 者 是 为 了 看 上 去 绚丽 多 彩 而 显得 极端 复杂 。 为 了 有 效 地 传达 
思想 观念 ， 美 学 形式 与 功能 需要 齐头并进 ， 通 过 直观 地 传达 关键 的 方面 与 
特征 ， 从 而 实现 对 于 相当 稀疏 而 又 复杂 的 数据 集 的 深入 洞察 。 
数据 可 视 化 技术 包含 以 下 几 个 基本 概念 。 
口 数据 空间 : 是 由 n 维 属 性 和 m 个 元 素 组 成 的 数据 集 所 构成 的 多 维 
信息 空间 。 
口 ”数据 开发 : 是 指 利用 一 定 的 算法 和 工具 对 数据 进行 定量 的 推演 和 
计算 。 
口 数据 分 析 : 指 对 多 维 数据 进行 切片 、 块 、 旋 转 等 动作 剖析 数据 ， 
从 而 能 多 角度 多 侧面 观察 数据 。 
口 ”数据 可 视 化 : 是 指 将 大 型 数据 集中 的 数据 以 图 形 图 像 形式 表示 ， 
并 利用 数据 分 析 和 开发 工具 发 现 其 中 未 知 信息 的 处 理 过 程 。 
数据 可 视 化 已 经 提出 了 许多 方法 ， 这 些 方法 根据 其 可 视 化 的 原理 不 同 
可 以 划分 为 基于 几何 的 技术 、 面 向 像素 技术 、 基 于 图 标的 技术 、 基 于 层次 
的 技术 、 基 于 图 像 的 技术 和 分 布 式 技术 等 。 
目前 , 市 场 上 的 数据 可 视 化 技术 比较 多 , 常用 的 有 Excel、Google Chart 
API、D3、Processing、Openlayers 等 。 图 2-11 是 基于 计算 流体 力学 的 三 维 
呈现 : 用 能 场所 3D 场景 、CFD 温度 及 能 效 云 场 呈现 。 
(5) 数据 挖掘 算法 
数据 挖掘 就 是 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 糊 的 、 随 机 的 实际 
应 用 数据 中 ， 提 取 隐 含 在 其 中 的 、 人 们 事先 不 知道 的 、 但 又 是 潜在 有 用 的 
信息 和 知识 的 过 程 。 
大 数据 挖掘 常用 的 算法 有 分 类 、 聚 类 、 回 归 分 析 、 关 联 规则 、 特 征 分 
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机 架 温度 分 布 图 





地 板 下 的 气流 组 织 分 布 图 | 

图 2-11 CFD 温度 及 能 效 云 场 ? 

析 、Web 页 挖掘 、 神 经 网 络 等 智能 算法 。 这 些 算法 的 实际 应 用 实例 ， 包 括 
决策 树 算法 、 序 列 分 析 、 聚 类 分 析 、 关 联 分 析 和 神经 网 络 。 


入 2.3 Hadoop 体系 架构 


2.3.1 Hadoop 概述 


Hadoop 最 初 是 一 个 由 Apache 软件 基金 会 研发 的 一 种 分 布 式 计算 机 系 
统 。 主 要 用 来 处 理 大 于 1TB 的 海量 数据 。Hadoop 采用 Java 语言 开发 ， 其 
核心 模块 包括 分 布 式 文件 系统 (Hadoop Distri buted File System，Hadoop 
HDFS) 和 分 布 式 计 算 框架 MapReduce。HDFS 为 海量 数据 提供 存储 ， 
MapReduce 为 海量 数据 提供 计算 ， 这 样 的 结构 实现 了 计算 与 存储 的 高 度 耦 
合 ， 成 为 大 数据 技术 的 事实 标准 。 


1. Hadoop 发 展 史 


2004 年 一 一 最 初 的 版 本 〈 现 在 称 为 HDFS 和 MapReduce) 由 Doug 
Cutting 和 Mike Cafarella 开始 实施 。 
2005 年 12 月 一 一 Nutch 移植 到 新 的 框架 ，Hadoop 在 20 个 节点 上 稳定 
行 。 


| 


Gl 


@ 图 片 参见 https://wenku.baidu.com/view/84b109cbf111f18582d05a01 html 


2006 年 2 月 
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一 一 Apache Hadoop 项 目 正 式 启动 以 支持 MapReduce 和 


HDFS 的 独立 发 展 。 
2008 年 9 月 一 一 Hive 成 为 Hadoop 的 子 项 目 。 
2009 年 3 月 一 一 Cloudera 推出 CDH (Cloudera’s Distribution Including 





Apache Hadoop )。 


2009 年 7 月 一 一 MapReduce 和 Hadoop Distributed File System (HDFS) 


成 为 Hadoop 项 目 


的 独立 子 项 目 。 


2009 年 7 月 一 一 Avro 和 Chukwa 成 为 Hadoop 新 的 子 项 目 。 

2010 年 5 月 一 一 Avro 脱离 Hadoop 项 目 ， 成 为 Apache 顶级 项 目 。 

2010 年 $ 月 一 一 HBase 脱离 Hadoop 项 目 ， 成 为 Apache 顶级 项 目 。 

2010 年 9 月 一 一 Hive (Facebook) 脱离 Hadoop, 成 为 Apache 顶级 项 目 。 

2010 年 9 月 一 一 Pig 脱离 Hadoop， 成 为 Apache 顶级 项 目 。 

2011 年 1 月 一 一 ZooKeeper 脱离 Hadoop， 成 为 Apache 顶级 项 目 。 

2011 年 3 月 一 一 Apache Hadoop 获得 Media Guardian Innovation Awards。 

2011 年 8 月 一 一 Dell 与 Cloudera 联合 推出 Hadoop 解决 方案 一 一 Cloudera 
Enterprise。Cloudera Enterprise 基于 Dell PowerEdge C2100 机 架 服务 器 以 及 





Dell PowerConnec 


t 6248 以 太 网 交换 机 。 


2012 年 3 月 一 一 在 Hadoop 1.0 版 的 基础 上 发 布 Hadoop 1.2.1 稳定 版 。 
2013 年 10 月 一 一 Hadoop 2.2.0 版 本 成 功 发 布 。 


2014 年 11 月 


一 一 Hadoop 已 经 发 展 到 了 2.6.0 版 本 。 


2. Hadoop 的 优点 
Hadoop 是 一 个 能 够 让 用 户 轻松 架构 和 使 用 的 分 布 式 计算 平台 ， 具 有 下 


面 5 个 优点 。 


口 高 可 靠 性 。Hadoop 具有 按 位 存储 和 处 理 数据 的 能 力 。 
口 高 扩展 性 。Hadoop 是 在 可 用 的 计算 机 集群 间 分 配 数据 并 完成 计算 


任务 的 ， 
口 高效 性 。 


可 以 方便 地 扩展 到 其 他 节点 中 。 
Hadoop 能 够 在 节点 之 间 动 态 地 移动 数据 ， 并 保证 各 个 节 


口 ”高 容错 性 。Hadoop 能 够 自动 保存 数据 的 多 个 副本 ， 并 自动 将 失败 


的 任务 
口 ” 低 成 本 。 





新 分 配 。 
Hadoop 是 开源 的 ， 项 目的 软件 成 本 因此 会 大 大 降低 。 


3. Hadoop 版 本 的 选择 


应 


前 Hadoop 





版 本 比较 混乱 ， 以 臻 用户 不 知道 怎样 选择 ,实际 上 , 目前 


Hadoop 只 有 两 个 版 本 : Hadoop 1.0 和 Hadoop 2.0， 其 对 比如 图 2-12 所 示 。 
其 中 ，Hadoop 1.0 由 一 个 分 布 式 文件 系统 HDFS 和 一 个 离线 计算 框架 
MapReduce 组 成 ， 而 Hadoop 2.0 则 由 一 个 支持 NameNode 横向 扩展 的 HDFS、 
一 个 资源 管理 系统 YARN 和 一 个 运行 在 YARN 上 的 离线 计算 框架 MapReduce 
组 成 。 相 比 于 Hadoop 1.0, Hadoop 2.0 功能 更 加 强大 , 且 具 有 更 好 的 扩展 性 ， 
并 支持 多 种 计算 框架 。 我 们 在 选择 使 用 某 个 开源 环境 时 ， 通 常会 考虑 几 个 
因素 : 是 否 是 免费 的 开源 软件 ， 版 本 是 否 稳定 ;是 否 有 强大 的 实践 验证 及 
出 现 故 障 后 是 否 有 一 个 强大 的 社区 支持 , 快速 获取 问题 的 解决 方法 。Hadoop 
的 生态 系统 如 图 2-13 所 示 。 
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(data processing) (data processing) 


MapReduce 
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图 2-12 Hadoop 1.0 和 Hadoop 2.0 的 对 比 
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2.3.2 ”Hadoop 核心 组 件 


(1) HDFS 

Hadoop 分 布 式 文件 系统 (HDFS) 被 设计 成 适合 运行 在 通用 硬件 
(commodity hardware) 上 的 分 布 式 文件 系统 。 它 是 一 个 高 度 容 错 性 的 系统 ， 
适合 部 署 在 廉价 的 机 器 上 ， 能 提供 高 吞吐 量 的 数据 访问 ， 非 常 适 合 大 规模 
数据 集 上 的 应 用 。HDFS 在 最 开始 是 作为 Apache Nutch 搜索 引擎 项 目的 基 
础 架构 而 开发 的 ， 是 Apache Hadoop Core 项 目的 一 部 分 。HDFS 把 节点 分 
成 两 类 : NameNode 和 DataNode。NameNode 存储 集群 的 元 数据 ,， DataNode 
存储 真正 的 数据 。 

HDFS 具有 高 容错 性 〈fault-tolerant) 的 特点 ， 可 以 用 来 部 署 在 低廉 的 
(low-cost) 硬件 上 ， 提 供 高 吞吐 量 (high throughput) 来 访问 应 用 程序 的 数 
据 ， 适 合 那些 有 着 超大 数据 集 〈large data set) 的 应 用 程序 。 

(2) MapReduce 

MapReduce 是 一 种 编程 模型 ， 它 的 主要 思想 ， 都 是 从 函数 式 编程 语言 
里 借 来 的 ， 还 有 从 矢量 编程 语言 里 借 来 的 特性 。 

MapReduce 是 面向 大 数据 并 行 处 理 的 计算 模型 、 框 架 和 平台 ， 它 隐 含 
了 以 下 3 层 含义 : 

口 是 一 个 基于 集群 的 高 性 能 并 行 计算 平台 Cluster Infrastructure ) 。 

口 是 一 个 并 行 计算 与 运行 软件 框架 (Software Framework)。 

口 是 一 个 并 行程 序 设计 模型 与 方法 (Programming Model & 
Methodology )。 

(3) 其 他 主要 功能 组 件 

口 HBase: 类 似 Google BigTable 的 分 布 式 NoSQL 列 数 据 库 。 

口 Hive: 是 基于 Hadoop 的 一 个 数据 仓库 工具 ， 可 以 将 结构 化 的 数据 
文件 映射 为 一 张 数据 库 表 , 并 提供 完整 的 sql 查询 功能 , 可 以 将 sql 
语句 转换 为 MapReduce 任务 进行 运行 。 

口 Zookeeper: 分 布 式 锁 ， 提 供 类 似 Google Chubby 的 功能 。 

口 Avro: 新 的 数据 序列 化 格式 与 传输 工具 ， 将 逐步 取代 Hadoop 原 有 
的 IPC 机 制 。 

口 、Pig: 大 数据 数据 流 分 析 平 台 ， 为 用 户 提供 多 种 接口 。 

口 ”Sqoop: 在 Hadoop 与 传统 的 数据 库 间 进行 数据 的 传递 。 
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2.4 上 机 与 项 目 实 训 


(1) 安装 虚拟 机 和 Linux， 虚 拟 机 推荐 使 用 vbox 或 vmware，PC 可 以 
使 用 workstation， 服 务 器 可 以 使 用 ESXi， 在 管理 上 比较 方便 。 可 以 使 用 复 
制 虚拟 机 功能 简化 准备 流程 。 如 果 只 是 实验 用 途 ， 内 存 分 配 可 以 在 1GB 左 
右 ， 硬 盘 大 约 预 留 20GB 一 30GB 空间 即 可 。 

(2) 以 CentOS 为 例 ， 分 区 可 以 选择 默认 ， 安 装 选项 选择 Desktop 
Gnome, 以 及 Server、Server GUI 即 可 。 其 他 Linux, 注意 选项 里 应 包括 ssh、 
vi (用 于 编辑 配置 文件 )、perl 等 《有 些 脚本 里 包含 perl 代码 需要 解析 )。 

(3) 到 Oracle 官网 下 载 java jdk 安装 包 。 

(4) 安装 Linux 后 一 定 要 确认 iptables，selinux 等 防火 墙 或 访问 控制 机 
制 已 经 关闭 ， 和 否则 实验 很 可 能 受 影响 。 


2.5 习题 


. 简 述 云 计 算 的 特点 ? 

. 简 述 云 计 算 的 集中 服务 方法 。 

. 大 数据 分 类 有 哪些 ， 请 分 别 指出 。 

. 请 列举 3 种 大 数据 的 应 用 解决 方案 。 
. 大 数据 中 Hadoop 核心 技术 是 什么 ? 
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大 数据 采集 及 预 处 理 


由 于 数据 纷繁 复杂 ， 变 化 多 样 ， 因 此 对 于 研究 和 分 析 大 数据 ， 前 提 是 
要 拥有 非常 多 的 数据 ， 形 成 海量 数据 ， 然 后 对 海量 数据 进行 分 析 和 利用 ， 
利用 大 数据 技术 和 方法 提炼 出 有 用 的 数据 ， 从 而 形成 真正 意义 上 的 大 数据 
采集 而 创造 的 价值 。 拥 有 数据 的 方式 有 很 多 种 ， 可 以 通过 自己 采集 和 汇聚 
数据 ， 也 可 以 通过 其 他 方式 和 手段 获取 收据 ， 如 通过 业务 系统 来 积累 大 量 
的 业务 数据 和 用 户 的 行为 数据 。 

数据 是 大 数据 分 析 和 应 用 的 基础 ， 数 据 采集 和 预 处 理 是 数据 分 析 的 第 
一 个 环节 ， 也 是 最 重要 的 环节 之 一 。 本 章 从 数据 采集 的 概念 谈 起 ， 从 大 数 
据 采 集 、 大 数据 预 处 理 和 ETL 工具 等 几 个 方面 介绍 大 数据 采集 和 预 处 理 的 
相关 知识 。 读 者 可 以 了 解 到 大 数据 采集 与 预 处 理 的 原理 ， 以 及 常用 的 ETL 
工具 。 


3.1 大 数据 采集 


3.1.1 概念 


数据 采集 (DAQ) 又 称 数据 获取 ， 是 大 数据 生命 周期 中 的 第 一 个 环节 ， 
通过 RFID 射频 数据 、 传 感 器 数据 、 社 交 网 络 数据 、 移 动 互联 网 数据 等 方式 
获得 各 种 类 型 的 结构 化 、 半 结构 化 及 非 结构 化 的 海量 数据 。 

大 数据 采集 是 在 确定 目标 用 户 的 基础 上 ， 针 对 该 范围 内 所 有 结构 化 、 
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半 结 构 化 和 非 结 构 化 的 数据 进行 的 采集 。 其 数据 量 大 、 数 据 种 类 繁多 、 来 
源 广泛 ， 大 数据 采集 的 研究 分 为 大 数据 智能 感知 层 和 基础 支撑 层 。 

(1) 智能 感知 层 

智能 感知 层 包括 数据 传 感 体系 、 网 络 通信 体系 、 传 感 适 配 体系 、 智 能 
识别 体系 及 软 硬 件 资源 接 入 系统 ， 实 现 对 结构 化 、 半 结构 化 、 非 结构 化 的 
海量 数据 的 智能 化 识别 、 定 位 、 跟 踪 、 接 入 、 传 输 、 信 号 转换 、 监 控 、 初 
步 处 理 和 管理 等 。 涉 及 有 针对 大 数据 源 的 智能 识别 、 感 知 、 适 配 、 传 输 、 
接 入 等 技术 。 随 着 物 联网 技术 、 智 能 设备 的 发 展 ， 这 种 基于 传感器 的 数据 
采集 会 越 来 越 多 ， 相 应 对 于 这 类 的 研究 和 应 用 也 会 越 来 越 重要 。 

(2) 基础 支撑 层 

基础 支撑 层 提供 大 数据 服务 平台 所 需 的 虚拟 服务 器 ， 结 构 化 、 半 结构 
化 及 非 结构 化 数据 的 数据 库 及 物 联网 络 资源 等 基础 支撑 环境 。 重 点 要 解决 
分 布 式 虚拟 存储 技术 ， 大 数据 获取 、 存 储 、 组 织 、 分 析 和 决策 操作 的 可 视 
化 接口 技术 ， 大 数据 的 网 络 传输 与 压缩 技术 ， 大 数据 隐私 保护 技术 等 。 

大 数据 的 分 析 从 传统 关注 数据 的 因果 关系 转变 为 相关 关系 ， 且 为 了 后 
期 分 析 的 时 候 找 到 数据 的 价值 ， 在 采集 阶段 我 们 的 态度 应 该 是 “全 而 细 ”。 
“全 ”是 指 各 类 数据 都 要 采集 到 。“ 细 ” 则 是 说 在 采集 阶段 要 尽 可 能 的 采集 
到 每 一 个 数据 。 

根据 采集 数据 的 结构 特点 ， 可 以 将 数据 划分 为 结构 化 数据 和 非 结构 化 
数据 。 其 中 结构 化 数据 包括 生产 报表 、 经 营 报表 等 具有 关系 特征 的 数据 ， 
非 结构 化 数据 包括 互联 网 网 页 、 格 式 文档 、 文 本 文件 等 文字 性 描述 的 资料 。 
这 些 数据 通过 关系 数据 库 和 专用 的 数据 挖掘 软件 进行 数据 的 挖 气 采 集 。 特 
别 是 非 结 构 化 数据 ， 综 合 运用 定点 采集 、 元 搜索 和 主题 搜索 等 搜索 技术 ， 
对 互联 网 和 企业 内 网 等 数据 源 中 符合 要 求 的 信息 资料 进行 搜集 整理 ， 并 保 
证 有 价值 信息 的 发 现 和 提供 及 时 性 及 有 效 性 。 在 数据 采集 模块 中 ， 针 对 不 
同 的 数据 源 ， 设 计 针 对 性 的 采集 模块 ， 分 别 进行 采集 工作 ， 主 要 的 采集 模 
块 有 : 网 络 信息 采集 模块 、 关 系数 据 库 采 集 模块 、 文 件 系统 资源 采集 模块 、 
其 他 信息 源 数据 的 采集 。 

3.1.2 采集 工具 

数据 采集 最 常用 的 传统 方式 是 企业 自己 搜集 自己 生产 系统 所 产生 的 数 
据 ， 如 淘宝 的 商品 交易 数据 、 京 东 商 城 的 交易 数据 。 在 采集 自身 数据 的 同 
时 还 采集 了 大 量 的 客户 信息 ， 如 客户 的 交易 行为 数据 等 。 随 着 时 间 的 推移 ， 
这 些 数据 越 来 越 多 地 被 商家 关注 ， 得 到 重视 ， 通 过 假设 日 志 采 集 系统 来 对 
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这 些 采 集 来 的 数据 进行 保存 分 析 ， 可 以 获取 其 更 大 的 商业 或 社会 价值 。 
常用 的 日 志 系 统 有 Hadoop 的 Chukwa、Cloudera 的 Flume、Facebook 
的 Scribe 和 LinkedIn 的 Kafka， 这 些 工具 大 部 分 采用 分 布 式 架 构 ， 来 满足 大 
规模 日 志 采 集 的 需求 。 下 面 对 集 中 常用 日 志 系统 的 采集 工具 进行 简单 介绍 。 


1. Chukwa 


Apache 的 开源 项 目 Hadoop， 被 业界 广泛 认可 ,很 多 大 型 企业 都 有 了 各 
自 基于 Hadoop 的 应 用 和 扩展 。 当 1000+ 以 上 个 节点 的 Hadoop 集群 变 得 常 
见 时 ，Apache 提出 了 用 Chukwa 的 方法 来 解决 。 
Chukwa 是 一 个 开源 的 用 于 对 大 型 分 布 式 系统 数据 进行 监控 搜集 的 ,如 
图 3-1 所 示 。 它 构建 在 Hadoop 的 hdfs 和 map/reduce 框架 之 上 , 继承 了 Hadoop 
的 可 伸缩 性 和 鲁 棒 性 。Chukwa 还 包含 了 一 个 强大 和 灵活 的 工具 集 ， 可 用 于 
展示 、 监 控 和 分 析 已 收集 的 数据 。 在 一 些 网 站 上 ，Chukwa 被 称 为 是 一 个 “日 

志 处 理 / 分 析 的 full stack solution”。 
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3-1 Chukwa 结构 图 


其 中 主要 的 部 件 为 : 

口 agents: 负责 采集 最 原始 的 数据 ， 并 发 送 给 collectors。 

口 adaptor: 直接 采集 数据 的 接口 和 工具 ， 一 个 agent 可 以 管理 多 个 
adaptor 的 数据 采集 。 

口 “Collectors: 负责 收集 agents 收 送 来 的 数据 ， 并 定时 写 入 集群 中 。 

口 “map/reduce jobs: 定时 启动 ， 负 责 把 集群 中 的 数据 分 类 、 排 序 、 去 
重 和 合并 。 

口 HICC: 负责 数据 的 展示 。 








2. Flume 


Flume 是 Cloudera 提供 的 一 个 可 靠 性 和 可 用 性 都 非常 高 的 日 志 系统 ， 
采用 分 布 式 的 海量 日 志 采 集 、 聚 合 和 传输 的 系统 ， 支 持 在 日 志 系 统 中 定制 
各 类 数据 发 送 方 , 用 于 收集 数据 ; 同时 ，Flume 具有 通过 对 数据 进行 简单 的 


处 理 ， 并 写 到 各 种 数据 接受 方 的 能 力 ， 是 Apache 下 的 一 个 锤 化 项 目 ， 其 体 
系 架构 如 图 3-2 所 示 。 









Web server 





图 3-2 Flume 体系 架构 图 


(1) 在 数据 处 理 方面 , Flume 提供 对 数据 进行 简单 处 理 ， 并 写 到 各 种 数 
据 接 受 方 处 。 它 提供 了 从 console 控制 台 )、RPC (Thrift-RPC)、text ( 文 
件 )、tail (UNIX tail)、syslog (syslog 日 志 系 统 ， 支 持 TCP 和 UDP 等 两 种 
模式 )、exec〔 命 令 执 行 ) 等 数据 源 上 收集 数据 的 能 力 。 

(2) 在 工作 方式 上 ，Flume-og 采用 了 多 Master 的 形式 。 为 了 保证 配置 
数据 的 一 致 性 ，Flume 引入 了 ZooKeeper， 用 于 保存 系统 配置 的 数据 ， 
ZooKeeper 本 身 具 有 可 保证 配置 数据 的 一 致 性 和 高 可 用 ， 同 时 ,在 配置 数据 
发 生变 化 时 ，ZooKeeper 可 以 通知 Flume Master 节点 。Flume Master 间 使 用 
gossip 协议 同步 数据 。 

Flume-ng 取消 了 集中 管理 配置 的 Master 和 Zookeeper， 变 为 一 个 纯粹 
的 传输 工具 。Flume-ng 还 有 一 个 不 同 点 是 读 入 数据 和 写 出 数据 现在 由 不 同 
的 工作 线程 处 理 ( 称 为 Runner)。 在 Flume-og 中 ， 读 入 线程 同样 做 写 出 工 
作 〈 除 了 故障 重 试 )。 如 果 写 出 慢 (不 是 完全 失败 )， 它 将 阻塞 Flume 接收 
数据 的 能 力 。 这 种 异步 的 设计 使 读 入 线程 可 以 顺畅 的 工作 而 无 须 关 注 下游 
的 任何 问题 。 




















3. Scribe 


Scribe 是 Facebook 开源 的 日 志 收集 系统 , 在 Facebook 内 部 已 经 得 到 大 
量 应 用 。 它 能 够 从 各 种 日 志 源 上 收集 日 志 ， 存 储 到 一 个 中 央 存 储 系统 〈 可 
以 是 NFS、 分 布 式 文件 系统 等 ) 上 ， 便 于 进行 集中 统计 分 析 处 理 ， 其 体系 
架构 如 图 3-3 所 示 。Scribe 最 重要 的 特点 是 容错 性 好 。 当 后 端的 存储 系统 
crash 时 ，Scribe 会 将 数据 写 到 本 地 磁盘 上 ， 当 存储 系统 恢复 正常 后 ，Scribe 








将 日 志 重新 加 载 到 存储 系统 中 。 














Application 


Application 


Application 

































Message Queue 


Threads 





图 3-3 Scribe 体系 架构 图 


Scribe 为 日 志 收 集 提供 了 一 种 容错 且 可 扩展 的 方案 。Scribe 可 以 从 不 同 
数据 源 、 不 同 机 器 上 收集 日 志 ， 然 后 将 它们 存 入 一 个 中 央 存储 系统 ， 便 于 
进一步 处 理 。 当 采用 HDFS 作为 中 央 系 统 时 ,可 以 进一步 使 用 Hadoop 进行 
处 理 数据 ， 于 是 就 有 了 scribe+HDFS+MapReduce 方案 。 


4. Kafka 


Kafka 是 一 种 高 吞吐 量 的 分 布 式 发 布 订阅 消息 系统 , 它 可 以 处 理 大 规模 
的 网 站 中 的 所 有 动作 流 数据 。 这 些 数据 通常 是 由 于 吞吐 量 的 要 求 而 通过 处 
理 日 志和 日 志 聚 合 来 解决 。 目 的 是 通过 Hadoop 的 并 行 加 载 机 制 来 统一 线 上 
线 下 的 消息 处 理 ， 也 是 为 了 通过 集群 来 提供 实时 的 消费 。 

Kafka 是 一 种 高 吞吐 量 的 分 布 式 发 布 订阅 消息 系统 ， 具 有 如 下 的 特性 。 

口 高 稳定 性 : 通过 O (1) 的 磁盘 数据 结构 提供 消息 的 持久 化 。 

口 “ 高 吞吐 量 : 非常 普通 的 硬件 Kafka 也 可 以 支持 每 秒 数 百 万 的 消息 。 

口 “支持 通过 Kafka 服务 器 和 消费 机 集群 来 分 区 消息 。 

口 “支持 Hadoop 并 行 数据 加 载 。 

Kafka 中 主要 有 3 种 角色 , 分 别 为 producer、broker 和 consumer。Kafka 
的 拓扑 结构 如 图 3-4 所 示 。 

(1) Producer 

Producer 的 任务 是 向 Broker 发 送 数据 。 为 其 提供 了 两 种 producer 接口 ， 
一 种 是 low level 接口 ， 使 用 这 种 接口 会 向 特定 的 Broker 的 某 个 topic 下 的 
某 个 partition 发 送 数据 ; 另 一 种 是 high level 接口 ， 这 种 接口 支持 同步 /异步 
发 送 数据 ， 基 于 Zookeeper 的 broker 自动 识别 和 负载 均衡 。 

(2) Broker 

Broker 采取 了 多 种 不 同 的 策略 来 提高 对 数据 处 理 的 效率 。 





(3) Consumer 









































Consumer 的 作用 是 将 日 志 信息 加 载 到 中 央 存 储 系统 上 。 
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图 3-4 


Kafka 拓扑 结构 图 






常用 的 Scribe、Chukwa、Kafka 和 Flume 这 4 个 日 志 系 统 各 有 优 缺 点 ， 


其 对 比如 表 3-1 所 示 。 


表 3-1 常用 4 种 日 志 系统 对 比 
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使 用 ， 但 容错 率 ” 列 产品 ， 直 接 支 (Push/pull) 非 常 巧 
总 体 评价 ”和 负载 均衡 方面 持 Hadoop, 目前 ” 妙 ， 适合 异 构 集 非常 优秀 
不 够 好 ， 且 资料 ”版 本 升级 较 快 ， 群 ， 但 产品 较 新 ， 
较 少 但 还 有 待 完善 ”其 稳定 性 有 待 验证 





3.1.3 ”采集 方法 


大 数据 环境 下 数据 来 源 非常 丰富 且 数 据 类 型 多 样 ， 依 据 采集 的 数据 来 
源 分 ， 大 数据 的 采集 有 以 下 几 种 方法 。 


1. 系统 日 志 采 集 方法 


许多 公司 的 业务 平台 每 天 都 会 产生 大 量 的 日 志 数 据 。 日 志 收 集 系 统 要 
做 的 事情 就 是 收集 业务 日 志 数据 供 离线 和 在 线 的 分 析 系 统 使 用 。 

日 志 收 集 系 统 所 具有 的 基本 特征 是 高 可 用 性 、 高 可 靠 性 、 可 扩展 性 。 
常用 的 日 志 系 统 有 Apache Hadoop 的 Chukwa、Cloudera 的 Flume、Facebook 
的 Scrible 和 LinkedIn 的 Kafka， 这 些 工具 大 部 分 采用 分 布 式 架构 ， 来 满足 
大 规模 日 志 采 集 的 需求 。Chukwa 是 Apache 旗下 的 ， 是 一 个 开源 的 用 来 对 
大 型 分 布 式 系 统 数据 进行 监控 搜集 的 ， 是 构建 在 Hadoop 的 HDFS 和 
map/reduce 框架 之 上 的 ; Flume 是 Cloudera 提供 的 一 个 高 可 用 的 、 高 可 靠 的 、 
分 布 式 的 海量 日 志 采 集 、 聚 合 和 传输 系统 ， 目 前 是 Apache 的 一 个 子 项 目 ; 
Scribe 是 Facebook 开源 日 志 收集 系统 ， 它 为 日 志 的 分 布 式 收集 、 统 一 处 理 
提供 一 个 可 扩展 的 、 高 容错 的 解决 方案 ; Kafka 是 LinkedIn 公司 提供 的 一 种 
高 春 吐 量 的 分 布 式 发 布 订阅 消息 系统 ， 它 可 以 处 理 大 规模 的 网 站 中 的 所 有 
动作 流 数据 。 

1) Chukwa 的 日 志 采集 流程 

(1) 模拟 增 量 日 志 环境 

/home/matrix/Program/project/log/testlog 
- 10.0.0.10 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg HTTP/1.0 
"404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 


- 10.0.0.11 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg HTTP/1.0 
"404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) 





-10.0.0.12 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg HTTP/1.0 
"404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

-10.0.0.13 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg HTTP/1.0 
"404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

-10.0.0.14 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg HTTP/1.0 
"404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 10.0.0.15 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg HTTP/1.0 
"404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 10.0.0.16 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg HTTP/1.0 
"404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 10.0.0.17 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg HTTP/1.0 
"404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 10.0.0.18 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg HTTP/1.0 
"404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 10.0.0.19 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg HTTP/1.0 
"404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

/home/matrix/Program/project/log/logtest 

- 192.168.0.10 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg 
HTTP/1.0 "404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 192.168.0.11 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg 
HTTP/1.0 "404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 192.168.0.12 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg 
HTTP/1.0 "404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 192.168.0.13 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg 
HTTP/1.0 "404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 192.168.0.14 [17/Oct/2011: 23: 20 : 40 +0800] GET /img/chukwa.jpg 
HTTP/1.0 "404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 192.168.0.15 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg 
HTTP/1.0 "404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 192.168.0.16 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg 
HTTP/1.0 "404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 192.168.0.17 [17/Oct/2011: 23: 20: 40 +0800] GET /img/chukwa.jpg 
HTTP/1.0 "404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 192.168.0.18 [17/Oct/2011: 23 : 20 : 40 +0800] GET /img/chukwa.jpg 
HTTP/1.0 "404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

- 192.168.0.19 [17/Oct/2011: 23 : 20 : 40 +0800] GET /img/chukwa.jpg 
HTTP/1.0 "404" "16" "Mozilla/5.0 ( MSIE 9.0; Windows NT 6.1; ) " 

/home/matrix/Program/project/log/Wwrite_log.sh 

#!/bin/bash 

cat /home/matrix/Program/project/log/testlog>>/home/matrix/Program/project/ 
log/testlog1 

cat /home/matrix/Program/project/log/logtest>>/home/matrix/Program/project/ 
log/testlog2 

/letc/crontab 

/1 **** matrix /home/matrix/Program/project/log/write_log.sh 


$CHUKWA_HOME/confinitial_adaptors 

add filetailer.CharFileTailingAdaptorUTF8 TestLog1 0 /home/matrix/Program/ 
project/log/testlog1 0 

add filetailer.CharFileTailingAdaptorUTF8 TestLog2 0 /home/matrix/Program/ 
project/log/testlog2 0 


(2) chukwa 的 目录 结构 


/chukwa/ 
archivesProcessing/ 
dataSinkArchives/ 
demuxProcessing/ 
finalArchives/ 
logs/ 
postProcess/ 
repos/ 
rolling/ 
temp/ 


(3) Chukwa 的 处 理 过 程 

@ Adaptors 使 用 tail 方式 监测 日 志 增 量 。 

@) Agent 发 送 数据 到 collectors。 

@@ Collectors 将 各 Agent 收集 的 数据 在 /chukwa/logs/ 目 录 下 写成 *.chukwa 
文件 。 

由 当 *.chukwa 文件 大 小 达到 了 值 或 达到 一 定时 间 间 隔 时 将 其 改名 为 
*.done 文件 。 

人 @@) demux 进程 将 /chukwa/logs/*.done 文件 转移 到 /chukwa/demuxProcessing/ 
mrInput/ 目 录 下 进行 处 理 。 

@ postProcess 进程 将 demux 进程 处 理 完成 的 *.evt 文件 转 储 到 
/chukwa/repos/ 目 录 下 。 

@ 可 以 根据 postProcess 进程 按照 日 志 类 型 在 /chukwa/rolling/ 目 录 下 生 
成 的 文件 进行 按 天 或 按 小 时 的 数据 合并 。 

2) Flume 日 志 采 集 流程 

(1) 整体 描述 

从 整体 上 描述 代理 (Agent) 中 sources、sinks、channels 所 涉及 的 组 件 。 





# Name the components on this agent 
al1.sources =r1 
al.sinks = k1 
al.channels = c1 





(2) 详细 描述 
详细 描述 Agent 中 每 一 个 source、sink 与 channel 的 具体 实现 : 在 描述 
source 的 时 候 ， 需 要 指定 source 到 底 是 什么 类 型 的 ， 即 这 个 source 是 接受 


文件 的 ， 


还 是 接受 http 的 ， 抑 或 是 接受 thrift 的 ;对 于 sink 也 是 同 理 ， 需 要 


指定 结果 是 输出 到 HDFS 中 ， 还 是 Hbase 中 等 。 


(3) 





# Describe/configure the source 
al.sources.r1.type = netcat 
al1.sources.r1.bind = localhost 
a1.Sources.r1.port = 44444 


# Describe the sink 
al1.sinks.k1.type = logger 


# Use a channel which buffers events in memory 
al.channels.c1.type = memory 
al.channels.c1.capacity = 1000 
al.channels.c1.transactionCapacity = 100 


连接 


通过 channel 将 source 与 sink 连接 起 来 。 


# Bind the source and sink to the channel 
al1.Sources.r1.channels = c1 
al1.sinks.k1.channel = c1 


启动 agent 的 shell 操作 : 


DO 


口 
3) 
CY 
适 月 


flume-ng agent-na1 -c ../conf -f ../conf/example.file 
-Dflume.root.logger=DEBUG, console 


-0 指定 agent 名 称 〈 与 配置 文件 中 代理 的 名 字 相 同 ) 

-c 指定 flume 中 配置 文件 的 目录 

了 指定 配置 文件 

-Dflume.root.logger=DEBUG., console 设置 日 志 等 级 
Scribe 日 志 采集 流程 


Server 





上 于 压力 较 小 的 网 站 或 服务 。 


日 志 流 程 如 下 : 


用 户 --> WebServer --> Scribe --> 存储 --> 分 析 --> 展示 
用 户 --> WebServer | 





e 一 第 3 章 大 数据 采 


记录 日 志 的 程序 框架 由 thrift 自动 生成 , 只 需 include 或 者 import 即 可 。 
(2) C/S 结构 
适合 访问 量 大 的 网 站 和 服务 ， 并 可 根据 需要 进行 平行 扩展 ， 采 用 散 列 
的 方式 分 配 服 务 器 压力 。 
用 户 --> WebServer1 --> ScribeClient -> ScribeServer--> 存 储 --> 分 析 --> 展 示 


用 户 --> WebServer2-- 一 一 | 
用 户 --> WebServer3-- 一 一 -| 





Client 及 Server 均 可 进行 水 平 扩展 ， 在 程序 中 设置 hash 访问 。 

4) Kafka 日 志 采 集 流程 

Kafka 的 日 志 采 集 流程 为 发 布 -订阅 消息 的 工作 流程 。 

(1) 生产 者 定期 向 主题 发 送 消息 

Kafka 存储 为 该 特定 主题 配置 的 分 区 中 的 所 有 消息 。 确保 消息 在 分 区 之 
间 平 等 共享 。 如 果 生 产 者 发 送 两 个 消息 并 且 有 两 个 分 区 ，Kafka 将 会 将 消息 
分 别 保存 在 两 个 分 区 中 。 

(2) 消费 者 订阅 特定 主题 

一 旦 消费 者 订阅 主题 ,Kafka 将 向 消费 者 提供 主题 的 当前 偏 移 ， 同 时 偏 
移 将 保存 在 Zookeeper 系统 中 。 

(3) 消费 者 将 定期 请 求 Kafka 需要 新 消息 

@ Kafka 收 到 来 自生 产 者 的 消息 ， 则 会 将 这 些 消 息 转发 给 消费 者 。 

@ 消费 者 将 收 到 消息 并 进行 处 理 。 

@ 当 消 息 被 处 理 ， 消 费 者 将 向 Kafka 代理 发 送 消 息 确认 。 

@ Kafka 收 到 确认 ， 将 偏 移 更 改 为 新 值 ， 并 在 Zookeeper 中 更 新 它 。 

@) 重复 上 述 流程 ， 直 到 消费 者 停止 请 求 。 

消费 者 可 以 随时 回 退 / 跳 到 所 需 的 主题 偏 移 量 , 并 阅读 所 有 后 续 消息 。 

(4) 队列 消息 /用 户 组 的 工作 流 

在 队列 消息 传递 系统 而 不 是 单个 消费 者 中 , 具有 相同 组 DD 的 一 组 消费 
者 将 订阅 主题 。 实 际 工作 流程 如 下 。 

@ 生产 者 以 固定 间隔 向 某 个 主题 发 送 消息 。 

@ Kafka 存储 在 为 该 特定 主题 配置 的 分 区 中 的 所 有 消息 。 

@ 单个 消费 者 订阅 特定 主题 ， 假 设 Topic-01 的 Group ID 为 Group-1。 

@ Kafka 以 与 发 布 -订阅 消息 相同 的 方式 与 消费 者 交互 , 直到 新 消费 者 
以 相同 的 组 ID 订阅 相同 主题 Topic-01。 

@@ 当 新 消费 者 到 达 时 ，Kafka 将 其 操作 切换 到 共享 模式 ， 并 在 两 个 消 
费 者 之 间 共 享 数据 ， 直 到 用 户 数 达到 为 该 特定 主题 配置 的 分 区 数 。 
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@ 当 消 费 者 的 数量 超过 分 区 的 数量 ， 新 消费 者 将 不 会 接收 任何 进一步 
的 消息 ， 直 到 现 有 消费 者 取消 订阅 任何 一 个 消费 者 。 


2. 网 络 数据 采集 方法 


“网 络 数据 采集 ”是 利用 互联 网 搜索 引擎 技术 对 数据 进行 针对 性 、 行 
业 性 、 精 准 性 的 抓 取 ， 并 按照 一 定 规则 和 筛选 标准 将 数据 进行 归 类 ， 形 成 
数据 库 文 件 的 一 个 过 程 。 

互联 网 网 络 数据 是 大 数据 的 重要 来 源 之 一 ， 这 些 数据 包含 了 用 户 的 消 
费 、 交 易 、 产 品评 价 等 商业 信息 ， 也 包含 了 其 社交 、 关 注 和 特点 爱好 等 行 
为 信息 。 网 络 数据 采集 常用 的 即使 是 通过 网 络 爬 虫 或 网 站 公开 API 等 方式 
从 网 站 上 获取 数据 信息 。 该 方法 可 以 将 非 结构 化 数据 从 网 页 中 抽取 出 来 ， 
将 其 存储 为 统一 的 本 地 数据 文件 ， 并 以 结构 化 的 方式 存储 。 它 支持 图 片 、 
音频 、 视 频 等 文件 或 附件 的 采集 ， 附 件 与 正文 可 以 自动 关联 。 

目前 网 络 数据 采集 采用 的 技术 上 都 是 利用 垂直 搜索 引擎 技术 的 网 络 蜂 
蛛 〈 或 数据 采集 机 器 人 )、 分 词 系统 、 任 务 与 索引 系统 等 技术 进行 。 

人 们 一 般 通 过 专门 技术 将 海量 信息 和 数据 采集 后 ， 进 行 分 拣 和 二 次 加 
工 ， 实 现 网 络 数据 价值 与 利益 最 大 化 、 更 专业 化 的 目的 。 

国内 从 事 “ 海 量 数据 采集 ”的 企业 越 来 越 多 ， 大 多 是 采用 垂直 搜索 引 
擎 技术 实现 ， 还 有 一 些 企业 同时 实现 了 多 种 技术 的 综合 运用 。 根 据 网 络 环 
境 不 同 的 数据 类 型 与 网 站 结构 ， 一 套 完善 数据 采集 系统 都 采用 分 布 式 抓 取 、 
分 析 、 数 据 挖掘 等 功能 于 一 身 的 信息 技术 ， 数 据 采集 系统 能 对 指定 的 网 站 
进行 定向 数据 抓 取 和 分 析 ， 在 专业 知识 库 建立 、 企 业 竞 争 分 析 、 报 社 媒体 
资讯 获取 、 网 站 内 容 建 设 等 领域 应 用 很 广 。 比 如 “火车 采集 器 ”采用 的 垂 
直 搜索 引擎 + 网 络 雷 达 + 信 息 追 踪 与 自动 分 拣 + 自动 索引 技术 , 将 海量 数据 采 
集 与 后 期 处 理 进行 了 结合 。 数 据 采集 系统 能 大 大 降低 企业 和 政府 部 门 在 信 
息 建 设 过 程 中 人 工 的 成 本 。 同 时 能 够 挖掘 更 巨大 的 商机 。 

网 络 数据 采集 的 基本 步骤 是 : 将 需要 抓 取 数据 网 站 的 URL 信息 写 入 
URL 队列 ， 疏 虫 从 URL 队列 中 获取 需要 抓 取 数据 网 站 的 Site URL 信息 ; 
疏 虫 从 Intemet 抓 取 对 应 网 页 内 容 ， 并 抽取 其 特定 属性 的 内 值 ; 仆 虫 将 从 网 
页 中 抽取 出 的 数据 写 入 数据 库 ; Dp 读 取 SpiderData， 并 进行 处 理 ; Dp 将 处 
理 后 的 数据 写 入 数据 库 。 

通俗 地 讲 ， 从 事 海量 数据 采集 的 企业 就 是 从 事 计算 机 数据 分 析 的 研究 。 

除了 网 络 中 包含 的 内 容 之 外 ,对 于 网 络 流量 的 采集 可 以 使 用 DPI 或 DFI 
等 带宽 管理 技术 进行 处 理 。 





3. 数据 库 采 集 


一 些 企业 会 使 用 传统 的 关系 型 数据 库 MySQL 和 Oracle 等 来 存储 数据 。 
这 些 数 据 库 中 存储 的 海量 数据 ， 相 对 来 说 结构 化 更 强 ， 也 是 大 数据 的 主要 
来 源 之 一 。 其 采集 方法 支持 异 构 数据 库 之 间 的 实时 数据 同步 和 复制 ， 基 于 
的 理论 是 对 各 种 数据 库 的 Log 日 志文 件 进行 分 析 ， 然 后 进行 复制 。 


4. 其 他 数据 采集 方法 


在 一 些 特定 领域 ， 比 如 对 于 企业 生产 经 营 数 据 或 学 科研 究 数据 等 保密 
性 要 求 较 高 的 数据 ， 可 以 通过 与 企业 或 研究 机 构 合作 ， 使 用 特定 系统 接口 
等 相关 方式 采集 数据 。 














3.2 ”数据 预 处 理 


数据 预 处 理 (Data Preprocessing) 是 指 在 主要 的 处 理 以 前 对 数据 进行 的 
一 些 处 理 。 现 实 世 界 中 存在 的 数据 是 零散 不 完整 的 ， 还 有 脏 数据 的 存在 ， 
我 们 无 法 直接 使 用 这 些 无 关 的 数据 。 为 了 提高 我 们 对 数据 使 用 的 质量 ， 于 
是 需要 对 数据 进行 挖掘 处 理 ， 在 这 个 过 程 中 就 产生 了 数据 预 处 理 技术 。 数 
据 预 处 理 的 方法 有 很 多 : 数据 清理 、 数 据 集 成 、 数 据 变换 、 数 据 归 约 等 。 
这 些 技术 用 在 数据 挖掘 之 前 ， 能 够 提高 数据 挖掘 模式 的 质量 ， 降 低 实 际 挖 
据 所 需要 的 时 间 。 

数据 的 预 处 理 是 指 对 所 收集 数据 进行 分 类 或 分 组 前 所 做 的 审核 、 筛 选 、 
排序 等 必要 的 处 理 。 主 要 采用 数据 清理 、 数 据 集成 、 数 据 转换 、 数 据 规约 
的 方法 来 完成 数据 的 预 处 理 任务 。 其 流程 如 图 3-5 所 示 。 


初 数 
始 据 
数 集 
据 成 
的 和 
获 融 
取 合 














{ 二 次 预 处 理 
3-5 ”数据 预 处 理 流程 图 





3.2.1 数据 清洗 


数据 清洗 时 发 现 并 纠正 数据 文件 中 可 识别 的 错误 的 最 后 一 道 程序 ， 包 
括 对 数据 一 致 性 的 检查 、 无 效 值 和 缺失 值得 处 理 。 数 据 清洗 与 问卷 审核 结 
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果 不 同 时 ， 录 入 后 的 数据 清理 工作 一 般 是 由 





计算 机 完成 而 不 是 人 工 来 操作 。 


数据 清洗 的 原理 (如 图 3-6 所 示 ) 是 利用 有 关 技术 如 数据 挖掘 或 预定 义 
的 清理 规则 将 脏 数据 转化 为 满足 数据 质量 要 求 的 数据 。 
同一 值 不 同 的 表示 











拼写 错误 不 合法 值 
命名 习惯 脏 数据 空 什 
数理 统计 技术 — 异常 检测 
数据 这 所 技术 |。 效 所 清理 策略、 规则 重复 处 理 











满足 数据 质量 要 求 的 数据 


3-6 ”数据 清洗 原理 图 
在 数据 清洗 过 程 中 ， 针 对 数据 的 类 型 和 特性 的 不 同 ， 大 致 将 数据 类 型 


分 为 3 类 来 进行 数据 的 清洗 工作 。 
1. 残缺 数据 


这 一 类 数据 主要 是 因为 部 分 信息 缺失 ， 如 公司 的 名 称 、 客 户 的 区 域 信 
息 、 业 务 系统 中 主 表 与 明细 表 不 能 匹配 等 数据 。 将 这 一 类 数据 过 滤 出 来 ， 
按照 缺失 的 内 容 分 别 填 入 对 应 的 文档 信息 ， 并 提交 给 客户 ， 在 规定 时 间 内 


补 全 ， 才 可 写 入 数据 仓库 。 
2. 错误 数据 


这 一 类 错误 产生 的 原因 往往 是 业务 系统 不 够 健全 ， 在 接收 输入 信息 后 
没有 进行 判断 直接 将 数据 写 入 后 台数 据 库 导 致 的 ， 比 如 数值 数据 输 成 全 角 
数字 字符 、 字 符 串 数据 后 面 有 一 个 回 车 操作 、 日 期 格式 不 正确 等 。 这 类 数 
据 也 是 需要 分 类 ， 对 于 类 似 于 全 角 字 符 、 数 据 前 后 有 不 可 见 字符 问题 的 时 
候 ， 只 能 用 写 SQL 语句 的 方式 查找 出 来 ， 然 后 要 求 客 户 在 业务 系统 修正 之 
后 抽取 。 日 期 格式 不 正确 的 错误 会 导致 ETL 运行 失败 ， 这 样 的 错误 需要 去 
业务 系统 数据 库 用 SQL 的 方式 挑 出 来 ， 交 给 业务 主管 部 门 要 求 在 一 定时 间 


范围 内 予以 修正 ， 修 正之 后 再 抽取 。 
3. 重复 数据 


这 一 类 数据 多 出 现在 维护 表 中 ， 
让 客户 确认 并 整理 。 








HH 


各 重复 数据 记录 的 所 有 字段 导出 来 ， 
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数据 清洗 是 一 个 反复 执行 的 过 程 ， 需 要 一 定 的 时 间 来 执行 操作 ， 要 在 
这 个 过 程 中 不 断 地 发 现 问题 ， 解 决 问题 。 对 于 是 否 过 滤 ， 是 否 修正 ， 一 般 
要 求 客户 确认 。 对 于 过 滤 掉 的 数据 ， 写 入 Excel 文件 或 者 将 过 滤 数 据 写 入 数 
据 表 ， 在 ETL 开发 的 初期 可 以 每 天 向 业务 单位 发 送 过 滤 数 据 的 邮件 ， 从 而 
促使 他 们 尽快 地 完成 对 错误 的 修正 ， 同 时 也 可 以 作为 将 来 验证 数据 的 依据 。 
在 整个 数据 清洗 过 程 中 需要 用 户 不 断 进行 确认 。 

数据 清理 的 方法 是 通过 填写 无 效 和 缺失 的 值 、 光 滑 噪 声 的 数据 、 识 别 
或 删除 离 群 点 并 解决 不 一 致 性 来 “清理 ”数据 。 主 要 是 为 达到 格式 标准 化 、 
异常 数据 消除 、 错 误 纠 正 、 重 复数 据 的 清除 等 目的 。 

一 般 来 说 ， 数 据 清理 是 将 数据 库 中 所 存 数据 精细 化 ， 去 除 重复 无 用 数 
据 ， 并 使 剩余 部 分 的 数据 转化 成 标准 可 接受 格式 的 过 程 。 数 据 清理 流程 是 
将 数据 输入 数据 清理 处 理 设备 中 ， 通 过 一 系列 步骤 对 数据 进行 清理 ， 然 后 
以 期 望 的 格式 输出 清理 过 的 数据 。 数 据 清理 从 数据 的 准确 性 、 完 整 性 、 一 
致 性 、 唯 一 性 、 适 时 性 、 有 效 性 等 几 个 方面 来 处 理 数据 的 丢失 值 、 越 界 值 、 
不 一 致 代码 、 重 复数 据 等 问题 。 

数据 清理 一 般 针 对 具体 应 用 来 对 数据 做 出 科学 的 清理 。 下 面 介绍 几 种 
数据 清理 的 方法 。 

(1) 填充 缺失 值 

大 部 分 情况 下 ， 缺 失 的 值 必须 要 用 手工 来 进行 清理 。 当 然 ， 某 些 缺失 
值 可 以 从 它 本 身 数据 源 或 其 他 数据 源 中 推导 出 来 ， 可 以 用 平均 值 、 最 大 值 
或 更 为 复杂 的 概率 估计 代替 缺失 的 值 ， 从 而 达到 清理 的 目的 。 

(2) 修改 错误 值 

用 统计 分 析 的 方法 识别 错误 值 或 异常 值 ， 如 数据 偏差 、 识 别 不 遵守 分 
布 的 值 ， 也 可 以 用 简单 规则 库 检 查 数据 值 ， 或 使 用 不 同属 性 间 的 约束 来 检 
测 和 清理 数据 。 

(3) 消除 重复 记录 

数据 库 中 属性 值 相 同 的 情况 被 认定 为 是 重复 记录 。 通 过 判断 记录 间 的 
属性 值 是 否 相同 来 检测 记录 是 否 相 等 ， 相 等 的 记录 合并 为 一 条 记录 。 


4. 数据 的 不 一 致 性 


从 多 数据 源 集成 的 数据 语义 会 不 一 样 ， 可 供 定义 完整 性 约束 用 于 检查 
不 一 致 性 ， 也 可 通过 对 数据 进行 分 析 来 发 现 它们 之 间 的 联系 ， 从 而 保持 数 
据 的 一 致 性 。 

数据 清洗 工具 使 用 领域 特有 的 知识 对 数据 作 清 洗 。 通 常 采用 语法 分 析 
和 模糊 匹配 技术 完成 对 多 数据 源 数据 的 清理 。 数 据 审计 工具 可 以 通过 扫描 
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数据 发 现 规律 和 联系 。 因 此 ， 这 类 工具 可 以 看 作 是 数据 挖掘 工具 的 变形 。 
3.2.2 ”数据 集成 


数据 集成 是 将 不 同 应 用 系统 、 不 同 数据 形式 ， 在 原 应 用 系统 不 做 任何 
改变 的 条 件 下 ， 进 行 数据 采集 、 转 换 好 储存 的 数据 整合 过 程 。 其 主要 目的 
是 在 解决 多 重 数据 储存 或 合并 时 所 产生 的 数据 不 一 致 、 数 据 重 复 或 元 余 的 
问题 ， 以 提高 后 续 数据 分 析 的 精确 度 和 速度 。 目 前 通常 采用 联邦 式 、 基 于 
中 间 件 模型 和 数据 仓库 等 方法 来 构造 集成 的 系统 ， 这 些 技术 在 不 同 的 着 重 
点 和 应 用 上 解决 数据 共享 和 为 企业 提供 决策 支持 。 简 单 说 数据 集成 就 是 将 
多 个 数据 源 中 的 数据 结合 起 来 并 统一 存储 ， 建 立 数据 仓库 。 

目前 来 说 异 构 性 、 分 布 性 、 自 治 性 是 解决 数据 集成 的 主要 难点 。 

口 “ 异 构 性 指 我 们 需要 集成 的 数据 往往 都 是 独立 开发 的 ， 数 据 模 型 异 
构 ， 给 集成 也 带 来 了 困难 ， 其 主要 表现 在 数据 语义 及 数据 源 的 使 
用 环境 等 。 

口 ”分布 性 指 的 是 数据 源 是 异地 分 布 的， 依赖 网 络 进行 数据 的 传输 ， 
网 络 在 传输 过 程 中 对 网 络 质量 和 安全 性 是 个 挑战 。 

口 自治 性 描述 的 是 各 数据 源 都 有 很 强 的 自治 性 ， 可 以 在 不 通知 集成 
系统 的 前 提 下 改变 自身 的 结构 和 数据 ， 给 数据 集成 系统 的 鲁 棒 性 
提出 新 挑战 。 

对 数据 集成 体系 结构 来 说 ， 关 键 是 拥有 一 个 包含 有 目标 计划 、 源 目标 
映射 、 数 据 获 得 、 分 级 抽取 、 错 误 恢 复 和 安全 性 转换 的 数据 高 速 缓存 器 。 
数据 高 速 缓存 器 包含 有 预先 定制 的 数据 抽取 工作 ， 这 些 工 作 自 动 地 位 于 一 
个 企业 的 后 端 及 数据 仓库 之 中 。 

高 速 缓存 器 作为 企业 和 电子 商务 数据 的 一 个 唯一 集成 点 ， 最 大 限度 地 
减少 了 对 直接 访问 后 端 系统 和 进行 复杂 实时 集成 的 需求 。 这 个 高 速 缓存 器 
从 后 端 系统 中 外 载 众多 不 必要 的 数据 请 求 ， 使 电子 商务 公司 可 以 增加 更 多 
的 用 户 ， 同 时 让 后 端 系统 从 事 其 指定 的 工作 。 

通常 采用 联邦 式 、 基 于 中 间 件 模型 和 数据 仓库 等 方法 来 构造 集成 的 系 
统 ， 这 些 技 术 在 不 同方 面 解决 了 数据 的 共享 和 为 企业 提供 了 决策 支持 。 

联邦 数据 库 (FDBS〉 是 早期 人 们 采用 的 一 种 模式 集成 方法 ， 是 最 早 采 
用 的 数据 集成 方法 之 一 ， 它 通过 构建 集成 系统 时 将 各 数据 源 的 数据 视图 集 
成 为 全 局 模式 ， 使 用 户 能 够 按照 全 局 模式 访问 各 数据 源 的 数据 。 用 户 可 以 
直接 在 全 局 模式 的 基础 上 提交 请 求 ， 由 数据 集成 系统 将 这 些 请 求 处 理 后 ， 
转换 成 各 个 数据 源 在 本 地 数据 视图 基础 上 能 够 执行 的 请 求 。 模 式 集成 方法 
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的 特点 是 直接 为 用 户 提供 透明 的 数据 访问 方法 。 构 建 全 局 模式 与 数据 源 数 
据 视图 间 的 映射 关系 和 处 理 用 户 在 全 局 模式 基础 上 的 查询 请 求 是 模式 集成 
要 解决 的 两 个 基本 问题 。 

在 联邦 数据 库 中 ， 数 据 源 之 间 共 享 自己 的 一 部 分 数据 模式 ， 形 成 一 个 
联邦 模式 。 联 邦 数 据 库 系 统 按 集 成 度 可 分 为 两 种 : 一 种 是 采用 紧密 耦合 联 
邦 数据 库 系 统 ， 另 一 种 是 采用 松散 耦合 联邦 数据 库 系统 。 紧 密 耦 合 联邦 数 
据 库 系统 使 用 统一 的 全 局 模式 ， 将 各 数据 源 的 数据 模式 映射 到 全 局 数据 模 
式 上 ,解决 了 数据 源 间 的 异 构 性 。 这 种 方法 集成 度 较 高 ， 需 要 用 户 参与 少 ; 
缺点 是 构建 一 个 全 局 数据 模式 的 算法 较为 复杂 ， 扩 展 性 差 。 松 散 耦 合 联邦 
数据 库 系统 比较 特殊 ， 没 有 全 局 模式 ， 采 用 联邦 模式 。 这 种 方法 提供 统一 
的 查询 语言 ， 将 很 多 异 构 性 问题 交 给 用 户 自己 去 解决 。 松 散 耦 合 方法 对 数 
据 的 集成 度 不 高 ， 但 其 数据 源 的 自治 性 强 、 动 态 性 能 好 ， 集 成 系统 不 需要 
维护 一 个 全 局 模式 。 

所 以 说 联邦 数据 库 系 统 (FDBS) 是 由 半 自 治 数据 库 系统 构成 ， 相 互 之 
间 分 享 数据 ， 联 盟 其 他 数据 源 之 间 相 互 提供 访问 接口 ， 同 时 联盟 数据 库 系 
统 可 以 是 集中 数据 库 系统 或 分 布 式 数据 库 系统 及 其 他 联邦 式 系统 。 无 论 采 
用 什么 样 的 模式 ， 其 中 核心 都 是 必须 解决 所 有 数据 源 语义 上 的 问题 。 

基于 中 间 件 模型 通过 统一 的 全 局 数据 模型 来 访问 异 构 的 数据 库 、 遗 留 
系统 、Web 资源 等 。 中 间 件 位 于 异 构 数据 源 系 统 和 应 用 程序 之 间 ， 向 下 协 
调 各 数据 源 系 统 ， 向 上 为 访问 集成 数据 的 应 用 提供 统一 数据 模式 和 数据 访 
问 的 接口 。 各 数据 源 的 应 用 仍然 独自 完成 它们 的 任务 ， 中 间 件 系统 则 主要 
集中 为 异 构 数据 源 提供 一 个 高 层次 检索 服务 。 

中 间 件 模式 是 目前 比较 流行 的 数据 集成 方法 ， 它 通过 在 中 间 层 提供 一 
个 统一 的 数据 逻辑 视图 来 隐藏 底层 的 数据 细节 ， 使 用 户 可 以 把 集成 数据 源 
看 成 一 个 统一 的 整体 。 

与 联邦 数据 库 不 同 ， 中 间 件 系统 不 仅 能 够 集成 结构 化 的 数据 源 信息 ， 
还 可 以 集成 半 结 构 化 或 非 结 构 化 数据 源 中 的 信息 ， 中 间 件 注重 于 全 局 查询 
的 处 理 和 优化 ， 与 联邦 数据 库 系统 相 比 ， 其 优点 是 它 能 够 集成 非 数据 库 形 
式 的 数据 源 ， 有 很 好 的 查询 性 能 ， 自 治 性 强 ; 中 间 件 集成 的 缺点 在 于 它 通 
常 是 只 读 ， 而 联邦 数据 库 对 读 写 都 支持 。 

数据 仓库 是 一 种 典型 的 数据 复制 方法 。 该 方法 将 各 个 数据 源 的 数据 复 
制 到 同一 处 ， 用 来 存放 这 些 数据 的 地 方 即 数据 仓库 。 用 户 则 像 访问 普通 数 
据 库 一 样 直接 访问 数据 仓库 。 数 据 仓库 是 在 数据 库 已 大 量 存在 的 情况 下 ， 
为 进一步 挖掘 数据 资源 和 决策 需要 而 产生 。 数 据 仓库 方案 建设 的 目的 是 将 
前 端 查 询 和 分 析 作 为 基础 ， 由 于 在 查询 和 分 析 中 会 产生 大 量 数 据 见 余 ， 所 








。 一 ”58 大 数据 导论 一 。 


以 需要 的 存储 容量 也 较 大 ， 因 此 形成 一 个 专门 存放 数据 的 仓库 。 数 据 仓库 
其 实 就 是 一 个 环境 ， 而 不 是 一 件 产品 。 

简 而 言 之 ， 传 统 的 操作 型 数据 库 是 面向 事务 设计 的 ， 数 据 库 中 通常 存 
储 在 线 交 易 数 据 ， 设 计时 尽量 合理 规避 元 余 ， 一 般 采 用 符合 范式 的 规则 设 
计 。 而 数据 仓库 是 面向 主题 设计 ， 存 储 的 一 般 是 历史 数据 ， 在 设计 时 有 意 
引入 元 余 ， 采 用 反 范 式 的 方式 设计 。 

从 设计 的 目的 来 讲 ， 数 据 库 是 为 捕获 数据 而 设计 ， 而 数据 仓库 是 为 存 
储 分 析 数 据 而 设计 ， 它 两 个 基本 的 元 素 是 维 表 和 事实 表 。 维 是 看 问题 的 角 
度 ， 事 实 表 里 放 着 要 查询 的 数据 ， 同 时 有 维 的 人 DD。 

数据 仓库 是 在 企业 管理 和 决策 中 面向 主题 的 、 集 成 的 、 与 时 间 相 关 的 
和 不 可 修改 的 数据 集合 。 其 中 ， 数 据 被 归 类 为 功能 上 独立 的 、 没 有 重印 的 
主题 。 

这 几 种 方法 在 一 定 程度 上 解决 了 应 用 之 间 的 数据 共享 和 互通 的 问题 ， 
但 也 存在 异同 。 数 据 仓库 技术 则 另外 一 个 层面 上 表达 数据 信息 之 间 的 共享 ， 
它 主要 是 为 了 针对 企业 某 个 应 用 领域 提出 的 一 种 数据 集成 方法 ， 我 们 可 以 
说 成 是 面向 主题 并 为 企业 提供 数据 挖 握 和 决策 支持 的 系统 。 


3.2.3 ”数据 转换 


数据 转换 (Data Transfer) 时 采用 线性 或 非 线 性 的 数学 变换 方法 将 多 维 
数据 压缩 成 较 少 维 的 数据 ， 消 除 它们 在 时 间 、 空 间 、 属 性 及 精度 等 特征 表 
现 方面 的 差异 。 实 际 上 就 是 将 数据 从 一 种 表示 形式 变 为 另 一 种 表现 形式 的 
过 程 。 

由 于 软件 的 全 面 升 级 ， 致 使 数据 库 也 要 随 之 升级 ， 因 为 每 一 个 软件 对 

与 之 对 应 的 数据 库 的 架构 与 数据 的 存储 形式 是 不 一 样 的 ， 因 此 就 需要 数据 

转换 。 由 于 数据 量 在 不 断 地 增加 ， 原 来 数据 构架 的 不 合理 ， 不 能 满足 各 方 

面 的 要 求 ， 问 题 日 渐 暴露 ， 也 会 产生 数据 转换 。 这 是 产生 数据 转换 的 原因 。 
常见 的 数据 转换 方法 有 5 种 ; 

有 nn 个 样本 ，m 个 指标 ， 得 到 观测 数据 二 ,去 1,2,…,n; 广 1,2, …,m 

均值: 三 = 忆 光 为 (=12.,m) 


标准 差 : s, = ey (j=1,2,…,m) 


极 差 : R= max xy ,min,xy (j=1,2,,m) 


(1) 中 心 化 变换 : 变换 之 后 均值 为 0， 协 方差 阵 不 变 ， 可 以 用 来 方便 地 
计算 样本 协 方差 阵 。 
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= 


S$’=S=(S,)mxm 


其 中 ,j= 二 1G —E)(x, —T,) i a 


(2) 标准 化 变换 : 变换 之 后 每 个 变量 均值 为 0， 标准 差 为 1， 变换 后 的 
数据 与 变量 的 量 纲 无 关 。 





he (i=1,2,…,n; J =1,2,…,m) 
5) 


(3) 极 差 标准 化 变换 :变换 后 每 个 变量 样本 均值 为 0， 极 差 为 1， 变换 
后 数据 绝对 值 数 据 在 〈-1，1) 中 ， 能 减少 分 析 计 算 中 的 误差 ， 无 量 纲 。 


hs 5 
和 (1=1,2,…,n; j=1,2,…,m) 
el 


(4) 极 差 正 规 化 变换 ， 变换 后 数据 在 [0，1] 之 间 ; 极 差 为 1， 无 量 纲 。 


x ee (i=1,2,…,n; j=1,2,…,m) 
及 


(5) 对 数 变换 ， 将 具有 指数 特征 的 数据 结构 变换 为 现行 数据 结构 。 


x =n(0o)z >0 (i=12,…,n; j=1,2,…,m) 


3.2.4 数据 归 约 


由 于 在 数据 挖掘 时 会 产生 非常 大 量 的 数据 信息 ， 在 少量 数据 上 进行 控 
掘 分 析 需 要 很 长 的 时 间 ， 数 据 归 约 技术 可 以 用 来 得 到 数据 集 的 归 约 表示 ， 
它 很 小 ， 但 并 不 影响 原 数据 的 完整 性 ， 结 果 与 归 约 前 结果 相同 或 几乎 相同 。 
所 以 我们 可 以 说 数据 归 约 是 指 在 尽 可 能 保持 数据 原貌 的 前 提 下 ， 最 大 限 
度 地 精简 数据 量 保持 数据 的 原始 状态 。 

数据 归 约 主要 有 两 个 途径 : 属性 选择 和 数据 采样 ， 分 别针 对 原始 数据 
集中 的 属性 和 记录 。 

数据 归 约 可 以 分 为 3 类， 分 别 是 特征 归 约 、 样 本 归 约 、 特 征 值 归 约 。 

(1) 特征 归 约 

特征 归 约 是 将 不 重要 的 或 不 相关 的 特征 从 原 有 特征 中 删除 ， 或 者 通过 








对 特征 进行 寻 


EE 组 和 比较 来 减少 个 数 。 其 原则 是 在 保留 甚至 提高 原 有 判断 能 


力 的 同时 减少 特征 向 量 的 维度 。 特 征 归 约 算法 的 输入 是 一 组 特征 ， 输 出 是 
它 的 一 个 子 集 。 包 括 3 个 步骤 。 





Q 搜索 过 程 : 在 特征 空间 中 搜索 特征 子 集 ， 每 个 子 集 称 为 一 个 状态 由 


选中 的 特征 构成 。 
@ 评估 过 程 : 输入 一 个 状态 ， 通 过 评估 函数 或 预先 设 定 的 阔 值 输出 一 


人 


个 评估 值 搜索 算法 的 目的 使 评估 值 达到 最 优 。 

@ 分 类 过 程 : 使 用 最 后 的 特征 集 完成 最 后 的 算法 。 

(2) 样本 归 约 

样本 归 约 就 是 从 数据 集中 选 出 一 个 有 代表 性 的 子 集 作 为 样本 。 子 集 大 
小 的 确定 要 考虑 计算 成 本 、 存 储 要 求 、 估 计量 的 精度 以 及 其 他 一 些 与 算法 
和 数据 特性 有 关 的 因素 。 

样本 都 是 预先 知道 的 ， 通 常数 目 较 大 ， 质 量 高 低 不 等 ， 对 实际 问题 的 
先 验 知识 也 不 确定 。 原 始 数据 集中 最 大 和 最 关键 的 维度 数 就 是 样本 的 数目 
也 就 是 数据 表 中 的 记录 数 。 

(3) 特征 值 归 约 

特征 值 归 约 是 特征 值 离散 化 技术 ， 它 将 连续 型 特征 的 值 离散 化 ， 使 之 
成 为 少量 的 区 间 ， 每 个 区 间 映 射 到 一 个 离散 符号 。 优 点 在 于 简化 了 数据 描 
述 ， 并 易于 理解 数据 和 最 终 的 挖掘 结果 。 

特征 值 归 约 分 为 有 参 和 无 参 两 种 。 有 参 方法 是 使 用 一 个 模型 来 评估 数 
据 ， 只 需 存 放 参数 ， 而 不 需要 存放 实际 数据 ， 包 含 回归 和 对 数 线性 模型 两 
种 。 无 参 方法 的 特征 值 归 约 有 3 种 ， 包 括 直方 图 、 聚 类 和 选 样 。 

对 于 小 型 或 中 型 数据 集 来 说 ， 一 般 的 数据 预 处 理 步 骤 已 经 可 以 满足 需 
求 。 但 对 大 型 数据 集 来 讲 ， 在 应 用 数据 挖掘 技术 以 前 ， 更 可 能 采取 一 个 中 
间 的 、 额 外 的 步骤 就 是 数据 归 约 。 步 骤 中 简化 数据 的 主题 是 维 归 约 ， 主 要 
问题 是 是 否 可 在 没有 牺牲 成 果 质 量 的 前 提 下 ， 丢 弃 这 些 已 准备 好 的 和 预 处 
理 的 数据 ， 能 否 在 适量 的 时 间 和 空间 中 检查 已 准备 的 数据 和 已 建立 的 子 集 。 

对 数据 的 描述 ， 特 征 的 挑选 ， 归 约 或 转换 决定 了 数据 挖掘 方案 的 质量 。 
在 实践 中 ， 特 征 的 数量 可 达到 数 百 万 计 ， 如 果 我 们 在 对 数据 进行 分 析 的 时 
候 ， 只 需要 上 白条 样本 ， 就 需要 进行 维 归 约 ， 以 挖掘 出 可 靠 的 模型 ， 另 外 ， 
高 维度 引起 的 数据 超 负 ， 会 使 一 些 数据 挖掘 算法 不 实用 ， 唯 一 的 方法 也 就 
是 进行 维 归 约 。 在 进行 数据 挖掘 准备 时 进行 标准 数据 归 约 操作 ， 计 算 时 间 、 
预测 /描述 精度 和 数据 挖掘 模型 的 描述 将 让 我 们 清楚 地 知道 这 些 操作 中 将 得 
到 和 失去 的 信息 。 

数据 归 约 的 算法 特征 包括 可 测 性 、 可 识别 性 、 单 调 性 、 一 致 性 、 收 益 
增 减 、 中 断 性 、 优 先 权 7 条 。 


3.3 ”常用 ETL 工具 


3.3.1 概念 
ETL (Extract-Transform-Load) 是 一 种 数据 仓库 技术 ， 即 数据 抽取 


(Extract)、 转 换 (Transform)、 装 载 (Load) 的 过 程 ， 其 本 质 是 数据 流动 的 
过 程 ， 将 不 同 异 构 数据 源流 向 统一 的 目标 数据 。ETL 负责 将 分 布 的 、 异 构 
数据 源 中 的 数据 如 关系 数据 、 平 面 数 据 文件 等 抽取 到 临时 中 间 层 后 进行 清 
洗 、 转 换 、 集 成 ， 最 后 加 载 到 数据 仓库 或 数据 集 市 中 ， 成 为 联机 分 析 处 理 
和 数据 挖掘 的 基础 ， 是 构建 数据 仓库 的 重要 环节 。 

典型 的 ETL 工具 有 Informatica、Datastage、OWB、 微 软 DTS、Beeload、 
Kettle 等 。 开 源 的 工具 有 Eclipse 的 ETL 插件 cloveretl。 

实现 ETL， 首 先 要 实现 ETL 转换 的 过 程 。 

(1) 空 值 处 理 ， 能 够 捕获 字段 空 值 ， 进 行 加 载 或 替换 为 其 他 含义 数据 ， 
并 可 根据 字段 空 值 实现 分 流 加 载 到 不 同 目标 库 。 

(2) 规范 化 数据 格式 : 可 实现 字段 格式 约束 定义 ， 对 于 数据 源 中 时 间 、 
数值 、 字 符 等 数据 ， 可 自 定义 加 载 格式 。 

(3) 拆 分 数据 : 依据 业务 需求 对 字段 可 进行 分 解 。 

(4) 验证 数据 正确 性 :可 利用 Lookup 及 拆 分 功能 进行 数据 验证 。 

(5) 数据 蔡 换 : 对 于 因 业 务 因素 ， 可 实现 无 效 数据 、 缺 失 数据 的 替换 。 

(6) Lookup: 查获 丢失 数据 Lookup 实现 子 查询 ， 并 返回 用 其 他 手段 
获取 的 缺失 字段 ， 保 证 字段 完整 性 。 

(7) 建立 ETL 过 程 的 主 外 键 约束 : 对 无 依赖 性 的 非法 数据 ， 可 替换 或 
导出 到 错误 数据 文件 中 ， 保 证 主键 唯一 记录 的 加 载 。 

在 ETL 架构 中 , 数据 的 流向 是 从 源 数据 流 到 ETL 工具 , ETL 工具 可 以 
看 成 是 一 个 单独 的 数据 处 理 引 擎 ， 通 常 在 单独 的 硬件 服务 器 上 ， 实 现 所 有 
数据 转化 的 工作 , 然后 将 数据 加 载 到 目标 数据 仓库 中 , 如 果 要 增加 整个 ETL 
过 程 的 效率 ， 那 么 只 能 增强 ETL 工具 服务 器 的 配置 ， 优 化 系统 处 理 流程 。 
IBM 的 datastage 和 Informatica 的 Powercenter 原来 都 是 采用 的 这 种 架构 。 

ETL 架构 的 优势 如 下 : 

口 ”可 以 分 担 数据 库 系统 的 负载 ; 

口 相对 于 ELT 架构 可 以 实现 更 为 复杂 的 数据 转化 逻辑 ; 

口 采用 单独 的 硬件 服务 器 ; 

口 与 底层 的 数据 库 数据 存储 无 关 。 

这 里 简单 介绍 下 ELT 架构 ， 在 ELT 架构 中 ， 它 只 负责 提供 图 形 化 的 界 
面 来 设计 业务 规则 ， 数 据 的 整个 加 工 过 程 都 在 目标 和 源 的 数据 库 之 间 流 动 ， 
ELT 协调 相关 的 数据 库 系统 来 执行 相关 的 应 用 ， 数 据 加 工 过 程 既 可 以 在 源 
数据 库 端 执行 ， 也 可 以 在 目标 数据 仓库 端 执行 。 

一 个 优秀 的 ETL 设计 应 该 具有 如 下 功能 : 管理 简单 , 采用 元 数据 方法 ， 
集中 进行 管理 ， 接 口 、 数 据 格式 、 传 输 有 严格 的 规范 ， 尽 量 不 在 外 部 数据 
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源 安装 软件 ;数据 抽取 系统 流程 自动 化 ， 并 有 自动 调度 功能 ;抽取 的 数据 
及 时 、 准 确 、 完 整 ， 可 以 提供 同 各 种 数据 系统 的 接口 ， 系 统 适应 性 强 ， 提 
供 软件 框架 系统 ， 系 统 功能 改变 时 ， 应 用 程序 很 少 改变 便 可 适应 变化 ， 可 
扩展 性 强 。 

标准 定义 数据 ， 合 理 的 业务 模型 设计 对 ETL 至 关 重 要 。 数 据 仓库 的 设 
计 建 模 一 般 都 依照 三 范式 、 星 型 模型 、 雪 花 模型 ， 无 论 哪 种 设计 思想 ， 都 
应 该 最 大 化 地 涵盖 关键 业务 数据 ， 把 运营 环境 中 杂乱 无 序 的 数据 结构 统一 
成 为 合理 的 、 关 联 的 、 分 析 型 的 新 结构 ， 而 ETL 则 会 依照 模型 的 定义 去 提 
取 数 据 源 ， 进 行 转换 、 清 洗 ， 并 最 终 加 载 到 目标 数据 仓库 中 。 模 型 的 标准 
化 定义 的 内 容 包括 标准 代码 统一 、 业 务 术 语 统一 。 

拓展 新 型 应 用 对 业务 数据 本 身 及 其 运行 环境 的 描述 与 定义 的 数据 ， 称 
为 元 数据 (Metadata)。 元 数据 是 描述 数据 的 数据 。 业 务 数据 主要 用 于 支持 
业务 系统 应 用 的 数据 ， 而 元 数据 则 是 企业 信息 门户 、 客 户 关 系 管理 、 数 据 
仓库 、 决 策 支持 和 B2B 等 新 型 应 用 所 不 可 或 缺 的 内 容 。 

而 元 数据 对 于 ETL 的 集中 表现 为 : 定义 数据 源 的 位 置 及 数据 源 的 属性 、 
确定 从 源 数据 到 目标 数据 的 对 应 规则 、 确 定 相关 的 业务 逻辑 、 在 数据 实际 
加 载 前 的 其 他 必要 的 准备 工作 等 ， 它 一 般 贯 穿 整个 数据 仓库 项 目 ， 而 ETL 
的 所 有 过 程 必须 最 大 化 地 参照 元 数据 ， 这 样 才能 快速 实现 ETL。 


3.3.2 ”常用 ETL 工具 比较 


ETL 工具 有 很 多 种 ， 如 图 3-7 所 示 。 可 根据 以 下 几 个 方面 考虑 选择 合 
适 的 ETL 分 析 工 具 : 对 平台 的 支持 程度 ， 对 数据 源 的 支持 程度 ， 抽 取 和 装 
载 的 性 能 是 不 是 较 高 ， 且 对 业务 系统 的 性 能 影响 大 不 大 ， 倾 入 性 高 不 高 ; 
数据 转换 和 加 工 的 功能 强 不 强 ， 是 否 具 有 管理 和 调度 功能 ， 是 否 具有 良好 
的 集成 性 和 开放 性 。 常 用 的 ETL 工具 有 以 下 几 种 。 

Kettle 是 一 款 国外 开源 的 ETL 工具 ， 纯 Java 编写 ,绿色 无 须 安装 ， 数 据 
抽取 高 效 稳定 (数据 迁移 工具 )。Kettle 中 有 两 种 脚本 文件 ，Transformation 和 
Job，Transformation 完成 针对 数据 的 基础 转换 ，Job 则 完成 整个 工作 流 的 控制 。 

Talend 可 执行 数据 仓库 到 数据 库 之 间 的 数据 同步 ， 提 供 基于 Eclipse 
RCP 的 图 形 操作 界面 。Talend 采用 用 户 友好 型 ， 综 合 性 很 强 的 IDE (类似 
于 Pentaho Kettle 的 Spoon) 来 设计 不 同 的 流程 。 这 些 流程 可 以 在 IDE 内 部 
测试 并 编译 成 Java 代码 ， 可 以 随时 查看 并 编辑 生成 的 Java 代码 ， 同 时 实现 
强大 的 控制 力 和 灵活 性 。 

Apache Camel 是 一 个 非常 强大 的 基于 规则 的 路 由 以 及 媒介 引擎 ， 该 引 
擎 提供 了 一 个 基于 POJO 的 企业 应 用 模式 (Enterprise Integration Patterns ) 
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3-7 常用 ETL 工 具 


的 实现 ， 用 户 可 以 采用 其 异常 强大 且 十 分 易 用 的 API (可 以 说 是 一 种 Java 
的 领域 定义 语言 Domain Specific Language ) 来 配置 其 路 由 或 者 中 介 的 规则 。 
通过 这 种 领域 定义 语言 , 可 以 在 自己 的 IDE 中 用 简单 的 Java Code 写 出 一 个 
类 型 安全 并 具有 一 定 智能 的 规则 描述 文件 。 

Scriptella 是 一 个 开源 的 ETIL《〈 抽 取 - 转 换 - 加 载 ) 工具 和 一 个 脚本 执行 
工具 ,采用 Java 开发 。Scriptella 支持 跨 数据 库 的 ETL 脚本 ， 并 且 可 以 在 单 
个 的 ETL 文件 中 与 多 个 数据 源 运行 。Scriptella 可 与 任何 JDBC/ODBC 兼容 
的 驱动 程序 集成 ， 并 提供 与 非 JDBC 数据 源 和 脚本 语言 的 互 操作 性 的 接口 。 
它 还 可 以 与 Java EE、Spring、JMX、JNDI 和 JavaMail 集成 。 

Logstash 是 一 个 应 用 程序 日 志 、 事件 的 传输 、 处理、 管理 和 搜索 的 平台 ， 
可 以 用 它 来 统一 对 应 用 程序 日 志 进 行 收集 管理 ， 提 供 Web 接口 用 于 查询 和 
统计 。Logstash 通常 搭配 ElasticSearch 和 Kibana 俗称 ELK Stack, 为 编程 人 
员 提 供 了 一 个 分 布 式 的 可 扩展 的 信息 储存 和 基于 Lucene 的 信息 检索 机 制 、 
基于 Logstash、Kibana 的 挖掘 结果 可 视 化 架构 。 


3.4 ”习题 


- 常用 大 数据 采集 工具 有 哪些 ? 

- 简要 阐述 数据 预 处 理 原理 。 

- 数据 清洗 有 哪些 方法 ? 

. 数据 转换 的 主要 内 容 包括 什么 ? 
- 分 别 阐述 常用 的 ETL 工具 。 
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大 数据 的 存储 


由 于 云 计算 、 物 联网 、 社 交 网络 的 发 展 使 人 类 社会 的 数据 产生 方式 发 
生 了 变化 ， 社 会 数据 的 规模 正在 以 前 所 未 有 的 速度 增长 ， 数 据 的 种 类 不 胜 
枚 举 。 这 种 海量 、 异 构 的 数据 不 仅 改变 我 们 的 生活 ， 也 带 来 了 数据 存储 技 
术 的 变革 与 发 展 。 

存储 本 身 就 是 大 数据 中 一 个 很 重要 的 组 成 部 分 ， 随 着 大 数据 技术 的 到 
来 ， 对 于 结构 化 、 半 结构 化 、 非 结构 化 的 数据 存储 也 呈现 出 新 的 要 求 ， 特 
别 对 统一 存储 也 有 了 新 的 变化 。 大 数据 集 容易 消耗 巨大 的 时 间 和 成 本 ， 从 
而 造成 非 结构 化 数据 的 雪崩 。 也 即 是 说 如 果 没 有 合适 的 大 数据 存储 方式 ， 
就 不 能 轻松 访问 或 部 署 大 量 数 据 。 

本 章 以 大 数据 当前 系统 、 管 理 、 应 用 方面 带 来 的 挑战 牵头 ， 展 开 介绍 
了 大 数据 存储 方式 、 数 据 仓 库 的 相关 概念 和 技术 。 


4.1 面临 的 挑战 


4.1.1 系统 问题 


自 人 类 诞生 以 来 ， 数 据 的 存储 就 一 直 伴随 人 们 左右 。 最 早 的 原始 人 类 
采用 结 绳 记事 的 方式 实现 数据 的 记录 与 存储 ， 后 来 商 代 利 用 甲骨 文 记录 信 
息 ， 西 周 和 春 秋 时 期 则 利用 竹简 作为 信息 记录 的 载体 ， 再 到 东汉 造纸 术 的 
成 功 出 现 都 持续 地 体现 了 数据 存储 对 人 类 生活 的 重要 性 。 从 公元 1900 年 到 
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现在 ， 人 们 相对 较 快 地 经 历 了 机 器 打 孔 、 电 子 存储 计算 器 、 在 线 数据 库 、 
关系 型 数据 库 、 多 类 型 数据 处 理 5 个 阶段 后 ， 正 式 进 入 了 大 数据 处 理 阶段 。 
从 关系 型 数据 库 阶段 起 ， 被 称 之 为 现代 数据 处 理 。 其 基础 技术 组 件 如 图 4-1 
所 示 。 包 含 数据 集成 、 文 件 存储 、 数 据 存储 、 数 据 计 算 、 数 据 分 析 、 平 台 
管理 6 个 基本 能 力 组 件 。 








平台 管理 
ea | 
IDatabase| 区 
集 广 > 
Web 成 数 数 数 缴 
据 据 据 
如 | 存 | 计 | | 分 | 中 本 
件 储 算 析 > 
一 -中 | | | 
储 终端 用 户 














4-1 现代 数据 处 理 基础 组 件 结构 图 


从 结构 图 中 可 以 看 出 ， 数 据 存储 是 数据 处 理 架构 中 进行 数据 管理 的 高 
级 单元 。 其 功能 是 存储 按照 特定 的 数据 模型 组 织 起 来 的 数据 集合 ， 并 提供 
独立 于 应 用 的 数据 增加 、 删 除 、 修 改 能 力 。 例 如 IBM 的 DB2 就 是 一 个 数据 
存储 能 力 组 件 。 面 对 大 数据 的 爆炸 式 增长 ， 且 具有 大 数据 量 、 异 构 型 、 高 
时 效 性 的 需求 时 ， 数 据 的 存储 不 仅仅 有 存储 容量 的 压力 ， 还 给 系统 的 存储 
性 能 、 数 据 管理 乃至 大 数据 的 应 用 方面 带 来 了 挑战 。 

为 了 应 对 大 数据 对 存储 系统 的 挑战 ， 数 据 存储 领域 的 工作 者 通过 不 懈 努 
力 提升 了 数据 存储 系统 的 能 力 。 数 据 存储 系统 能 力 的 提升 主要 有 3 个 方面 : 
一 是 提升 系统 的 存储 容量 ;二 是 提升 系统 的 吞吐 量 ; 三 是 系统 的 容错 性 。 


1. 提升 系统 的 存储 容量 


提升 系统 容量 有 两 种 方式 : 一 种 是 提升 单 硬盘 的 容量 ， 通 过 不 断 采用 
新 的 材质 和 新 的 读 写 技术 来 提升 ， 目 前 单个 硬盘 的 容量 已 经 进入 TB 时 代 ; 
另 一 种 是 在 多 硬盘 的 情况 下 如 何 提升 整体 的 存储 容量 。 经 过 多 年 发 展 ， 系 
统 存 储 技术 由 早期 的 DAS CDirect-Attached Storage, 直 连 式 存储 ) 发 展 到 NAS 
(Network-Attached Storage， 网 络 接 入 存储 ) 和 SAN (Storage Area Network， 
存储 区 域 网 络 )， 现 在 已 经 进入 到 云 存 储 阶段 。 

1) DAS 直 连 式 存储 

直 连 式 存储 是 最 早出 现 的 最 直接 的 扩展 数据 存储 模式 ， 即 将 数据 存储 
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设备 与 数据 使 用 设备 〈 服 务 器 或 工作 站 ) 直接 相连 的 模式 。DAS 很 典型 的 
应 用 场景 就 是 一 个 包含 大 量 数 据 存储 能 力 的 设备 〈 如 磁盘 阵列 ) 与 一 个 数 
据 使 用 设备 〈 如 数据 处 理 服务 器 ) 通过 数据 传输 接口 相连 ， 而 常用 的 传输 
接口 就 是 SCSI 和 FC (Fibre Channel)。 在 这 种 模式 下 ， 数 据 存储 设备 和 数 
据 使 用 设备 之 间 没 有 任何 存储 网 络 连接 ， 如 图 4-2 所 示 。 


数据 处 理 服务 器 
文件 系统 


SCSI、FC 


数据 存储 设备 


磁盘 阵列 


















4-2 ”DAS 存储 技术 结构 


DAS 结构 在 早期 数据 量 不 大 、 应 用 场景 比较 简单 的 时 候 发 挥 了 主要 作 
用 。 但 是 随 着 数据 量 的 增长 ， 数 据 处 理应 用 场景 变 得 复杂 化 的 一 系列 变化 ， 
DAS 结构 的 不 足 之 处 也 随 之 表现 出 来 。 

(1) 扩展 性 差 ， 成 本 高 

当 新 的 数据 应 用 出 现时 ， 数 据 使 用 设备 与 数据 存储 设备 直接 相连 ， 需 
要 为 新 的 数据 使 用 设备 增加 单独 的 数据 存储 设备 ， 导 致 投资 成 本 加 大 ， 并 
且 随 着 数据 量 的 增 大 ， 数 据 使 用 设备 和 数据 存储 设备 间 的 传输 通道 很 容易 
成 为 性 能 瓶颈 。 

(2) 资源 利用 率 低 

用 于 不 同 数据 处 理 服务 器 间 的 数据 存储 设备 存在 孤岛 效应 ， 一 些 设备 
存储 能 力 不 足 而 另 一 些 设备 却 有 大 量 空间 空闲 ， 从 而 出 现 数据 分 布 不 均衡 ， 
数据 存储 能 力 不 能 共享 ， 管 理 功能 分 散 ， 以 及 效率 低下 的 局 面 。 

(3) 备份 、 恢 复 和 扩容 过 程 复杂 

基于 数据 使 用 设备 与 数据 存储 设备 直接 相连 的 模式 ， 进 行 数据 备份 与 
恢复 时 ， 会 占用 正常 的 数据 处 理 传输 通道 ， 使 得 数据 的 备份 与 恢复 不 能 实 
时 进行 ， 必 须 在 系统 空闲 时 执行 ， 带 来 了 较 大 风险 ， 而 在 进行 扩容 时 还 需 
要 停机 维护 ， 对 业务 影响 较 大 。 

这 些 不 足 都 制约 了 DAS 结构 在 大 数据 应 用 场景 下 的 使 用 ， 为 了 解决 这 
些 问 题 , 存储 界 的 工作 者 提出 了 NAS 和 SAN， 以 不 同 的 方式 应 对 大 数据 的 
挑战 。 
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2) NAS 网 络 接 入 存储 

NAS (网 络 接 入 存储 )， 顾 名 思 义 是 通过 网 络 与 其 他 设备 相连 并 提供 具 
有 文件 访问 能 力 的 存储 设备 。 通 过 高 速 的 网 络 交换 机 连接 存储 设备 和 服务 
器 主机 ， 以 实现 高 速度 和 大 容量 的 数据 存储 和 访问 。NAS 的 存储 技术 结构 


如 图 4-3 所 示 。 
数据 处 理 服务 器 


高 速 网 络 























文件 系统 
数据 存储 设备 


i a 


图 4-3 ”NAS 存储 技术 结构 


NAS 结构 文件 存储 能 力 的 雏形 是 由 英国 纽 卡 斯 大 学 的 Brownbridge 等 
人 提出 ， 其 目的 是 解决 在 多 个 UNIX 服务 器 之 间 远 程 访问 文件 的 问题 。 在 
此 基础 上 ，Sun 公司 开发 了 NFS 系统 以 实现 网 络 中 客户 端 访问 多 个 网 络 服 
务 器 的 文件 存储 能 力 。Novell 公司 也 在 NetWare 服务 器 中 通过 NCP 协议 实 
现 类 似 功能 。 随 后 ，3Com、 微 软 、IBM 等 大 公司 也 纷纷 研发 出 了 基于 NAS 
架构 的 文件 服务 器 并 推 向 市 场 。 但 是 在 20 世纪 80 年 代 至 90 年 代 期 间 ， 受 
到 局 域 网 技术 的 限制 , 在 10Mbit/s 局 域 网 环境 下 NAS 架构 的 能 力 没有 得 到 
充分 展示 ， 到 20 世纪 末 21 世纪 初 ， 随 着 快速 以 太 网 、 虚 拟 局 域 网 等 技术 
的 推进 ， 特 别 是 吉 比 特 以 太 网 技术 的 商用 化 ， 基 于 NAS 机 构 实现 的 数据 存 
储 设备 完成 了 质 的 飞越 ， 并 得 到 了 市 场 的 广泛 认可 。NAS 结构 采用 标准 的 
TCP/IP 协议 进行 数据 交换 ， 具 有 兼容 异 构 系 统 和 设备 的 强大 能 力 ， 同 时 继 
承 了 磁盘 阵列 技术 的 几乎 所 有 优点 ， 可 以 将 设备 通过 标准 的 网 络 拓扑 结构 
连接 ， 摆 脱 了 服务 器 和 异 构 化 构架 的 限制 。 随 着 万 兆 以 太 网 技术 的 商用 和 
存储 设备 的 成 本 降低 ，NAS 已 经 被 各 类 型 企业 和 机 构 广 泛 采用 。 虽 然 NAS 
技术 经 过 了 市 场 的 充分 验证 ， 但 是 由 于 架构 的 先天 不 足 ， 也 存在 一 些 与 大 
数据 处 理 不 相 适应 的 问题 。 

(1) 受 局 域 网 带宽 的 限制 

NAS 设备 与 客户 机 通过 企业 网 进行 连接 ， 数 据 存储 和 备份 会 占用 网 络 
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的 带宽 ， 这 必然 影响 企业 内 部 网 络 上 的 其 他 应 用 ， 共 用 网 络 带宽 成 为 限制 
NAS 性 能 的 主要 问题 。 

(2) 不 适用 数据 块 级 访问 方式 

NAS 访问 需要 经 过 文件 系统 格式 转换 ， 是 以 文件 一 级 来 访问 ， 不 适合 
Block 级 的 应 用 ， 尤 其 是 要 求 使 用 数据 块 访问 的 数据 库 系 统 。 

(3) 无 法 实现 集中 备份 

NAS 结构 下 , 在 存储 空间 不 足 时 通过 增加 NAS 设备 提升 空间 是 比较 方 
便 ， 但 是 在 NAS 设备 的 数据 访问 时 需要 一 个 独特 的 网 络 标识 符 ， 因 此 无 法 
将 多 台 NAS 设备 中 的 数据 视 为 一 台 统 一 数据 设备 进行 访问 ， 这 就 导致 了 在 
NAS 环境 下 数据 不 能 进行 集中 备份 。 

3) SAN 存储 区 域 网 络 

相对 于 直 连 式 存储 和 网 络 接 入 存储 ， 存 储 区 域 网 络 的 发 展 历史 较 短 ， 
是 指 提 供 格式 统一 的 、 数 据 块 级 访问 能 力 的 一 种 专用 局 域 网 络 。SAN 通常 
是 用 于 将 具有 大 数据 存储 能 力 的 存储 设备 〈 如 磁盘 阵列 、 磁 带 库 、 光 盘 机 
等 )， 通 过 高 速 交 换 网 络 连 接 在 数据 处 理 服务 器 上 ， 数 据 处 理 服务 器 上 的 操 
作 系 统 可 以 像 访问 本 地 盘 数 据 一 样 对 这 些 存 储 设 备 进行 高 速 访问 。SAN 的 
存储 技术 结构 如 图 4-4 所 示 。 





文件 系统 











数据 存储 设备 数据 存储 设备 


4-4 ”SAN 存储 技术 结构 


SAN 技术 是 从 20 世纪 90 年 代 后 期 开始 兴起 。 由 于 当时 以 太 网 的 带宽 
限制 ， 而 FC 协议 可 以 支持 1Gb 的 带宽 ， 因 此 早期 的 SAN 存储 系统 多 数 由 
FC 存储 设备 构成 。 但 是 SAN 架构 的 本 质 上 是 与 具体 的 连接 协议 和 设备 类 
型 无 关 ， 随 着 吉 比 特 以 太 网 和 太 比 特 以 太 网 的 实现 与 普及 ， 尤 其 是 iSCSI 
协议 的 成 熟 ，SAN 架构 的 采购 成 本 逐渐 降低 ， 有 力 地 推动 了 SAN 技术 设备 
的 推广 部 署 。SAN 架构 的 优良 特性 也 确保 了 其 在 大 数据 处 理应 用 环境 中 的 
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重要 地 位 。 

(1) 系统 的 整合 度 高 

在 SAN 架构 下 ,多 台 服 务 器 可 以 同时 通过 存储 网 络 访问 后 端 存储 系统 ， 
不 用 为 每 台 服 务 器 单独 配备 存储 设备 ， 这 极 大 地 降低 了 存储 设备 异 构 化 的 
程度 ， 降 低 投资 成 本 、 维 护 工作 量 和 维护 费用 。 

(2) 数据 集中 度 高 

不 同 应 用 和 服务 器 的 数据 实现 了 物理 上 的 集中 ， 有 利于 提高 存储 资源 
的 利用 率 ， 减 轻 了 空间 分 配 调 整 和 数据 备份 恢复 等 维护 工作 。 

(3) 高 扩展 性 

SAN 架构 下 ， 可 以 很 方便 地 将 数据 处 理 服务 器 和 数据 存储 设备 接 入 现 
有 的 SAN 环境 ， 可 以 很 好 地 适应 应 用 变化 的 需要 。NAS 和 SAN 从 结构 上 
来 看 ， 具 有 一 定 的 相似 性 ， 这 也 是 在 实际 应 用 中 这 两 个 概念 容易 让 人 混淆 
的 原因 。 它 们 最 核心 的 区 别 在 于 文件 系统 模块 是 位 于 数据 处 理 服务 器 一 侧 
还 是 位 于 数据 存储 设备 一 侧 。 比 较 图 4-3 和 图 4-4 可 以 看 出 ，NAS 架构 中 
的 文件 系统 位 于 数据 存储 设备 一 侧 ， 且 数据 存储 设备 提供 的 是 文件 级 别 的 
数据 访问 能 力 。 而 在 SAN 架构 中 ,文件 系统 位 于 数据 处 理 服务 器 一 侧 ， 能 
够 以 数据 块 的 形式 访问 数据 存储 设备 。 正 是 由 于 NAS 和 SAN 之 间 存 在 这 
样 的 区 别 ， 因 此 它们 在 大 数据 处 理 的 应 用 场景 中 也 各 有 重点 。NAS 架构 的 
重点 是 关注 在 应 用 、 用 户 和 文件 以 及 它们 共享 的 数据 上 , 适合 IO 请 求 次 数 
较 少 、 对 文件 存储 能 力 要 求 高 、 对 扩展 性 和 异 构 兼容 性 要 求 较 高 的 场合 ， 
典型 的 应 用 就 是 文件 共享 。 而 SAN 架构 的 重点 则 是 在 磁盘 、 磁 带 以 及 连接 
它们 的 可 靠 的 基础 结构 , 适合 IO 请 求 次 数 较 多 、 数 据 访 问 频 繁 、 响 应 速度 
要 求 高 、 系 统 可 靠 性 要 求 高 的 场合 ， 典 型 的 应 用 就 是 数据 库 访问 。 
因此 , 在 一 些 大 数据 处 理 的 复杂 环境 下 , NAS 与 SAN 常常 作为 互补 的 
两 种 技术 同时 使 用 ， 一 种 较为 常见 的 NAS/SAN 混合 架构 如 图 4-5 所 示 。 

在 图 4-5 所 示 的 架构 中 ，NAS 与 SAN 实现 了 很 好 地 相互 补充 ， 为 数据 
使 用 者 提供 对 不 同类 型 数据 的 访问 。NAS 提供 了 文件 级 的 数据 访问 和 共享 
服务 ，SAN 则 实现 了 海量 、 面 向 数据 块 的 数据 传输 。 从 图 中 可 以 看 到 随 着 
SAN 和 NAS 的 结合 ， 出 现 了 NAS 网 关 这 样 一 个 新 兴 部 件 ，NAS 网 关 通 常 
是 由 专门 针对 提供 文件 访问 服务 而 进行 优化 的 硬件 和 定制 操作 系统 构成 ， 
可 以 视 为 一 个 专用 的 文件 管理 转 接 设 备 。 其 工作 原理 是 : 当 网 关 接 收 到 客 
户 机 的 请 求 后 ， 将 该 请 求 转换 为 向 SAN 存储 设备 发 出 的 块 数据 请 求 ，SAN 
存储 设备 处 理 这 个 请 求 后 将 结果 发 回 给 NAS 网 关 , NAS 网 关 又 将 这 个 块 信 
息 的 结果 转换 为 文件 数据 ， 发 给 客户 机 。 通 过 NAS 网 关 ， 数 据 使 用 者 无 颖 
透明 地 实现 了 对 SAN 存储 设备 的 文件 级 访问 。NAS 网 关 的 引入 使 得 SAN 
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4-5 NAS/SAN 混合 架构 


的 大 容量 存储 空间 可 以 为 NAS 使 用 ， 实 现 NAS 存储 空间 根据 环境 的 需求 
扩展 容量 。NAS 网 关 作为 混合 架构 中 的 关键 性 转 接 组 件 ， 也 存在 一 定 的 局 
限 性 ， 虽 然 在 一 定 程度 上 解决 了 NAS 与 SAN 系统 的 存储 设备 级 的 共享 问 
题 ， 但 在 文件 级 的 共享 问题 上 却 与 传统 的 NAS 系统 一 样 遇 到 了 可 扩展 性 的 
问题 。 当 一 个 文件 系统 负载 很 大 时 ，NAS 网 关 很 可 能 成 为 系统 的 性 能 瓶颈 。 

4) 云 存储 

随 着 全 球 数 据 量 的 迅猛 增长 ， 对 现 有 的 存储 技术 提出 了 挑战 ， 数 据 存 
储 问题 受到 越 来 越 多 的 企业 关注 ， 云 计算 的 发 展 伴随 着 数据 存储 技术 的 云 
化 发 展 ， 云 存储 的 发 展 同样 源 于 集群 技术 、 网 络 技术 、 分 布 式 存储 技术 、 
虚拟 化 存储 技术 的 发 展 。 因 此 云 存 储 是 指 : 通过 网 络 技术 、 分 布 式 文件 系 
统 、 集 群 应 用 、 服 务 器 虚拟 化 等 技术 将 网 络 中 海量 的 不 同类 型 的 存储 设备 
构成 可 扩展 、 低 成 本 、 低 能 耗 的 共享 存储 资源 池 ， 并 提供 数据 存储 访问 、 
处 理 功 能 的 系统 服务 。 在 云 存储 的 快速 发 展 过 程 中 ， 不 同 厂商 对 云 存储 提 
供 了 不 同 的 结构 模型 ， 目 前 云 存 储 还 没有 统一 的 结构 模型 ， 文 章 选择 一 种 
比较 具有 代表 性 的 云 存 储 结构 模型 , 如 图 4-6 所 示 。 这 种 云 存储 的 结构 模型 
自 底 向 上 分 为 存储 层 、 基 础 管理 层 、 应 用 接口 层 和 访问 层 。 

(1) 存储 层 

存储 层 是 云 存储 最 基础 的 促成 部 分 ， 由 大 量 的 、 多 种 多 样 的 存储 设备 
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| 网 络 接 入 、 用 户 认证 、 权 限 管理 
HH 层 公用 API 接 口 、 应 用 软件 、Web Service 等 
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吾 三 和 分 布 式 文件 系统 数据 备份 
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| 存储 虚拟 化 、 存 储 集中 管理 、 状 态 监控 、 维 护 升级 等 | 


存储 设备 :DAS、NAS、PC、iSCSI 等 


图 4-6 云 存储 系统 的 结构 模型 


构成 。 比 如 FC 光纤 通道 存储 设备 ，NAS 和 iSCSI 等 耳 存储 设备 ，SCSI 或 
SAS 等 DAS 存储 设备 。 处 于 这 一 层 的 存储 设备 数量 众多 ， 大 多 分 布 于 不 同 
的 地 理 位置 , 彼此 之 间 通 过 广域网 、 互 联网 或 者 FC 光纤 通道 网 络 进行 连接 ， 
构成 一 个 海量 的 资源 池 。 在 存储 设备 的 上 层 ， 需 要 一 个 统一 的 存储 设备 管 
理 系统 ， 来 实现 存储 设备 的 逻辑 虚拟 化 管理 、 多 链 路 宛 余 管理 以 及 硬件 设 
备 的 状态 监控 和 故障 维护 。 

(2) 基础 管理 层 

基础 管理 层 是 云 存储 最 核心 的 部 分 ， 也 是 云 存储 中 实现 起 来 最 为 困难 
和 复杂 的 部 分 。 基 础 管理 层 通过 集群 、 分 布 式 文件 系统 和 网 格 计算 技术 ， 
实现 云 存 储 中 多 个 存储 设备 之 间 的 协同 工作 ， 使 多 个 存储 设备 可 以 对 外 提 
供 一 致 的 服务 ， 并 且 提 供 更 好 的 数据 访问 性 能 。 该 层 中 的 内 容 分 发 、 数 据 
加 密 技术 用 于 保证 云 存 储 环境 中 的 数据 被 安全 地 访问 ， 不 会 被 恶意 用 户 访 
问 或 修改 。 同 时 通过 各 种 数据 备份 和 容 灾 技术 和 措施 可 以 有 效 地 保证 云 存 
储 自身 的 安全 和 稳定 。 

(3) 应 用 接口 层 

应 用 接口 层 是 云 存储 结构 模型 中 最 为 灵活 多 变 的 部 分 。 用 户 通过 应 用 
接口 层 实现 对 云端 数据 的 存 取 操作 ， 云 存储 更 加 强调 服务 的 易 用 性 。 云 储 
存 提 供 了 基本 的 数据 存储 功能 ， 在 不 同 的 存储 应 用 领域 中 ， 有 具体 需求 会 千 
差 万 别 ， 而 服务 提供 商 可 以 根据 实际 业务 类 型 ， 为 特定 领域 的 用 户 提供 更 
加 友好 的 服务 接口 ， 提 供 针对 具体 应 用 的 云 存 储 解决 方案 。 

(4) 访问 层 

访问 层 ， 任 何 一 个 授权 的 用 户 都 可 以 通过 标准 的 公用 应 用 接口 来 登录 
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云 存储 系统 ， 享 受 云 存储 提供 的 服务 。 访 问 层 的 构建 一 般 都 追寻 友好 化 、 
简便 化 和 实用 化 的 原则 。 访 问 层 的 用 户 通 常 有 个 人 数据 存储 用 户 、 企 业 数 
据 存储 用 户 和 服务 集成 商 等 。 目 前 商用 云 存储 系统 对 于 中 小 型 用 户 具有 较 
大 的 性 价 比 优势 ， 尤 其 适合 处 于 快速 发 展 阶段 的 中 小 型 企业 。 而 由 于 云 存 
储 运营 单位 的 不 同 ， 云 存储 提供 的 访问 类 型 和 访问 手段 也 不 尽 相 同 。 

云 存 储 已 然 成 为 存储 发 展 的 一 种 趋势 ， 但 存储 的 发 展 也 面临 着 一 些 挑 
战 。 首 先是 云 存 储 中 心 的 建设 需要 大 量 投 入 ， 不 同 企业 的 实力 不 均 ， 而 大 
型 企业 已 经 有 了 自己 的 IT 设施 , 是 否 愿 意 放 弃 原先 的 IT 设施 , 对 企业 的 信 
息 化 系统 、 存 储 系统 进行 重新 布置 ， 需 要 的 投入 巨大 。 其 次 是 国内 虽然 已 
经 建立 了 部 分 云 存 储 中 心 ， 但 大 部 分 客户 都 是 政府 或 大 型 企业 ， 客 户 群 局 
限 ， 春 利 能 力 较 弱 。 最 后 是 云 存 储 服务 的 可 靠 性 还 无 法 完全 达到 企业 级 的 
要 求 ， 如 何 确保 用 户 数据 的 绝对 可 靠 也 是 云 存 储 需 要 解决 的 问题 。 


2. 提升 系统 的 吞吐 量 


对 于 单个 硬盘 ， 提 升 春 叶 量 的 主要 方法 是 提高 硬盘 转速 、 改 进 磁盘 接 
口 形式 或 增加 读 写 缓存 等 。 而 要 提升 数据 存储 系统 的 整体 吞吐 量 ， 比 较 典 
型 的 技术 是 早期 的 专用 数据 库 机 体系 。 在 20 世纪 70 年 代 ， 一 些 大 型 企业 
需要 对 数据 仓库 中 累积 的 海量 数据 进行 分 析 ， 因 此 需要 对 这 些 大 数据 进行 
大 量 的 关系 性 查询 。 在 当时 的 技术 条 件 下 ， 数 据 库 服务 器 普遍 采用 基于 
冯 “" 诺 依 曼 架 构 实现 的 通用 计算 机 ， 在 这 种 架构 及 当时 的 硬件 条 件 下 ， 通 
用 数据 库 服务 器 在 处 理 当 时 的 大 数据 时 出 现 了 严重 的 不 足 。 在 当时 基于 采 
用 通用 计算 单元 处 理 所 有 的 数据 操作 , 使 用 有 限 能 力 的 VO 总 线 在 分 离 的 内 
存 组 件 和 磁盘 组 件 间 传 输 大 量 数据 的 架构 来 实现 的 数据 库 服务 器 不 适用 于 
大 数据 的 处 理 。 其 原因 在 于 基于 通用 计算 机 架构 实现 的 数据 库 服务 器 将 大 
量 的 计算 能 力 用 于 解析 软件 发 出 的 数据 库 操作 请 求 ， 然 后 调用 一 系列 软件 
模块 去 处 理 这 些 请 求 并 检索 出 相应 的 数据 , 再 通过 IO 操作 将 大 量 数 据 从 次 
要 存储 组 件 如 硬盘 复制 到 主要 存储 组 件 如 内 存 ， 最 终 经 过 大 量 运 算得 出 结 
果 返 回 给 应 用 软件 。 所 以 当时 的 技术 条 件 下 ， 大 数据 库 操作 的 需求 与 通用 
计算 机 架构 间 的 差距 就 表现 在 以 下 两 个 方面 。 

首先 ， 数据库 的 操作 目的 不 同 。 通 用 计算 机 设计 面向 操作 更 多 是 计算 。 
特点 是 少量 数据 ， 大 量 计算 ， 关 注 的 计算 与 寻 址 ， 实 现 方式 是 计算 单元 访 
问 高 速 存储 部 件 〈 如 内 存 ) 中 的 数据 获得 计算 结果 。 而 数据 库 操作 更 多 的 
是 检索 与 更 新 ， 特 点 是 大 量 数据 ， 少 量 运算 ， 关 注 的 是 查找 与 内 容 ， 实 现 
方式 计算 单元 访问 大 容量 存储 部 件 〈 如 硬盘 ) 中 的 数据 获得 处 理 结 果 。 

其 次 ， 由 于 通用 计算 机 上 操作 系统 隔离 了 数据 库 软 件 模块 与 底层 硬件 ， 
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使 得 对 数据 存储 部 件 和 IO 缓存 的 控制 变 得 非常 困难 , 从 而 导致 了 数据 访问 
效率 低下 。 

基于 以 上 矛盾 和 当时 日 趋 成 熟 的 数据 关系 模型 中 可 描述 任意 复杂 数据 
操作 的 基本 数据 操作 集 理 论 ， 数 据 库 的 学 者 们 提出 了 一 种 在 当时 解决 大 数 
据 处 理 的 思路 ， 即 将 一 些 基 础 的 数据 操作 功能 〈 如 检索 、 更 新 等 ) 在 单独 
的 专用 硬件 上 实现 , 而 将 通用 计算 资源 和 IO 通道 释放 出 来 用 于 其 他 复杂 处 
理 ， 从 而 实现 高 效 的 数据 访问 。 基 于 这 样 的 思路 ， 并 利用 当时 逐渐 提高 的 
硬件 技术 和 不 断 降低 的 硬件 成 本 ， 逐 步 实 现 了 用 于 支持 大 规模 高 速 数 据 库 
访问 的 专用 计算 机 和 硬件 系统 ， 即 数据 库 机 (Database Machine)。 数 据 库 
机 的 抽象 模型 如 图 4-7 所 示 。 
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图 4-7 数据 库 机 抽象 模型 


数据 库 机 通过 高 速 连接 与 使 用 者 直接 交互 的 数据 库 服务 器 ， 以 提供 高 
速 访问 能 力 。 与 数据 服务 器 不 同 ， 数 据 库 机 并 不 存放 数据 库 的 全 部 数据 ， 
而 通常 存放 该 数据 库 机 需要 处 理 的 那 部 分 数据 。 数 据 库 机 与 服务 器 之 间 的 
高 速 连接 确保 了 在 需要 时 数据 库 机 可 以 在 秒 级 时 间 内 将 需要 处 理 的 数据 下 
载 到 数据 库 机 的 存储 部 件 中 ， 在 数据 库 机 中 ， 功 能 简单 ， 专 注 于 使 用 专用 
子 处 理 器 实现 基础 的 数据 库 操 作 ， 如 数据 检索 、 更 新 等 。 每 个 专用 子 处 理 
器 负责 处 理 对 应 的 一 个 或 多 个 子 存储 部 件 ， 这 些 专用 子 处 理 器 的 执行 任务 
由 一 个 主 控制 处 理 器 统一 调配 。 在 数据 库 机 不 是 很 长 的 发 展 过 程 中 ， 不 同 
的 研究 者 在 将 数据 操作 基础 功能 转移 到 数据 库 机 上 的 基本 共识 下 ， 提 出 了 
不 同 的 实现 架构 ， 这 些 架构 按照 其 特点 可 以 分 为 : 每 磁道 专用 处 理 器 架构 
(ProcessorPer-Track，PPT)、 每 磁头 专用 处 理 器 架构 (Processor-Per-Head， 
PPH)、 多 处 理 缓存 架构 (Multi-Processor Cache，MPC)。 为 了 更 好 地 理解 
这 些 架 构 ， 先 简单 介绍 数据 存储 主要 部 件 磁盘 的 结构 : 硬盘 是 由 一 片 或 多 

















片 磁性 盘 片 构成 的 , 每 个 盘 片 由 两 个 面 (Side) 构成 , 都 可 以 用 来 读 写 数据 ， 
依次 为 0 面 、1 面 、2 面 …… 每 个 面 都 有 一 个 读 写 磁头 (Head)， 因 此 这 些 
面 通常 被 称 为 0 号 读 / 写 头 、1 号 读 / 写 头 、2 号 读 / 写 头 ……- 每 个 磁性 盘 片 为 
一 个 圆 形 ， 盘 片 旋转 磁头 不 动 ， 当 盘 片 旋转 一 周 时 磁头 可 对 盘 片 上 的 一 个 
圆周 进行 读 写 ， 这 样 的 一 个 圆周 叫 作 一 个 磁道 (Track)。 

1) PPT 每 磁道 专用 处 理 器 架构 

每 磁道 专用 处 理 器 架构 是 由 Slotnick 在 1970 年 提出 的 ， 这 是 最 早 的 专 
用 数据 库 架 构 。 为 了 支持 在 大 数据 量 的 情况 下 直接 搜索 数据 库 并 降低 搜索 
过 程 中 主 处 理 器 与 数据 存储 部 件 间 的 数据 传输 量 以 提高 性 能 ，Slotnick 提出 
为 大 数据 存储 部 件 的 每 个 磁道 配置 一 个 单独 的 处 理 器 单元 ， 这 些 处 理 器 单 
元 可 以 执行 指定 的 数据 检索 操作 ， 并 通过 相连 的 高 速 数据 总 线 将 符合 检索 
条 件 的 数据 传输 到 主 处 理 器 以 进行 后 续 的 处 理 ， 从 而 降低 主 处 理 器 的 负载 
和 数据 传输 量 。PPT 架构 的 结构 图 如 图 4-8 所 示 。 
高 速 总 线 




















4-8 每 磁道 专用 处 理 器 架构 的 结构 图 


后 续 的 研究 者 在 Slotnick 提出 的 PPT 架构 上 进行 了 一 些 改进 ， 虽 然 
Slotnick 提出 的 架构 和 这 些 改进 并 没 直 接应 用 到 实际 产品 中 , 但 它 为 后 来 的 
研究 提供 了 指导 和 借鉴 。 直 到 20 世纪 70 年 代 中 期 提出 了 具有 使 用 价值 的 
PPT 架构 ， 包 括 CASSM、RAP、RARES。 

(1) CASSM 架构 

CASSM 架构 是 第 一 个 完整 的 数据 库 机 设计 方案 。 采 用 CASSM 架构 实 
现 的 数据 库 机 使 用 每 个 磁道 都 有 一 个 单独 的 磁头 的 硬盘 以 及 一 组 联合 的 子 处 
理 对 数据 进行 并 行 处 理 ， 实 现 大 数据 的 存 入 与 取出 。CASSM 提供 了 布尔 型 
检索 、 数 据 采集 和 一 些 高 层次 的 数据 库 操作 功能 ， 用 于 支持 三 种 类 型 的 数据 
模型 : 关系 型 、 分 层 模型 和 网 状 结构 。 在 CASSM 的 基础 上 , 几 类 新 兴 的 PPT 
架构 (CAFS、LEECH、RINDA) 对 数据 检索 需要 的 Join 操作 进行 了 优化 。 
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(2) RAP 架构 

RAP 架构 的 核心 思路 是 引入 了 与 Codd 定义 的 类 似 关系 规则 , 并 将 存在 
相同 关系 类 型 的 数据 按 字 节 顺 序 存储 在 一 个 磁道 中 。 可 以 理解 为 ， 这 种 数 
据 存储 方式 是 将 一 个 定义 好 表 结 构 的 数据 表 中 的 若干 行 数据 按 顺 序 存储 在 
一 个 磁道 的 多 个 数据 块 中 ， 并 且 只 有 在 相同 表 中 的 若干 行 数 据 才 可 以 存储 
在 同一 磁道 中 。 这 一 存储 方式 带 来 的 好 处 是 当 检索 数据 时 ， 一 个 磁道 中 相 
同 的 数据 组 织 结构 可 以 带 来 更 加 高 效 的 写 读 效 率 。 同 时 ， 由 于 每 个 磁道 有 
一 个 专门 的 处 理 器 ，RAP 架构 可 以 实现 并 行 的 不 同 条 件 的 数据 检索 ， 并 可 
以 将 Join 操作 分 解 为 一 系列 子 检索 操作 以 提高 效率 。 

(3) RARES 架构 

在 RARES 架构 中 ， 存 储 部 件 的 一 个 柱 面 《Cylinder， 即 各 个 磁盘 面 上 
相同 位 置 的 磁道 集合 ) 被 分 为 两 部 分 ，0 头 磁道 被 定义 为 控制 空间 ， 其 他 
(1 头 、2 头 ……) 被 定义 为 数据 空间 ， 每 个 数据 采用 (Name，Data) 的 形 
式 进 行 存储 ，Name 存储 在 控制 空间 ，Data 存储 在 数据 空间 。 每 个 数据 的 
Name 和 Data 的 存储 位 置 并 行 的 分 布 在 一 个 柱 面 的 相同 位 置 的 磁道 位 置 上 。 
基于 此 结构 存放 的 数据 可 以 支持 更 加 高 效 的 读 写 。 在 访问 特定 的 数据 时 ， 
只 需要 在 很 小 的 控制 空间 查找 此 数据 Name 的 位 置 ,然后 全 部 磁头 读 取 其 他 
盘面 与 此 Name 相同 磁道 位 置 的 数据 即 可 完成 。 并 且 由 于 数据 是 分 布 在 不 同 
盘面 上 , 在 读 取 时 可 以 充分 利用 不 同 盘 面 对 应 的 子 处 理 缓存 , 从 而 实现 RAP 
架构 更 高 效 的 数据 访问 。 

以 上 的 几 种 PPT 架构 虽然 能 在 一 定 程度 上 解决 大 数据 访问 面临 的 效率 
问题 ， 但 实际 上 PPT 架构 很 快 就 面临 了 导致 其 不 能 被 大 规模 应 用 的 重大 问 
题 ， 那 就 是 磁道 的 容量 局 限 性 。 

2) 每 磁头 专用 处 理 器 架构 

为 了 解决 PPT 架构 的 磁道 容量 限制 缺陷 ， 一 部 分 研究 者 提出 了 每 磁头 
专用 处 理 器 架构 (PPH)，PPH 架构 面向 的 是 采用 移动 技术 的 磁盘 ， 每 个 磁 
头 伴 有 一 个 专用 处 理 器 ， 可 根据 检索 条 件 将 数据 以 并 行 的 方式 输出 到 数据 
总 线 上 , 因此 可 以 在 磁盘 的 一 次 旋转 周期 内 读 取 完 一 个 整 柱 面 的 数据 。 PPH 
架构 的 结构 图 如 图 4-9 所 示 。 

基于 PPH 的 数据 库 机 方案 主要 有 DBC 和 SURE 两 种 : DBC 架构 是 为 
了 解决 PPT 架构 在 实现 大 容量 数据 库 机 时 成 本 过 高 的 问题 而 进行 的 项 目 。 
随 着 磁盘 技术 的 发 展 ， 基 于 移动 磁头 技术 实现 的 高 速 磁 盘 逐 渐 普 及 ， 使 得 
要 求 每 个 磁道 配备 一 个 磁头 的 PPT 架构 变 得 不 太 现 实 。 DBC 架构 采用 了 多 
个 移动 磁头 硬盘 作为 大 容量 存储 器 ， 这 些 磁 头 集合 具有 并 行 读 取 能 力 以 实 
现 高 速 数据 访问 。 并 且 这 些 磁盘 的 磁头 通过 一 个 切换 器 与 多 个 处 理 器 相连 ， 
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4-9 ”每 磁头 专用 处 理 器 架构 结构 图 


以 实现 可 控制 的 数据 检索 。SURE 架构 采用 了 一 种 创新 的 数据 访问 结构 以 实 
现 同 时 从 所 有 磁盘 盘面 并 行 读 取 数据 ，SURE 架构 将 读 取 的 数据 通过 一 个 高 
速 广播 通道 发 送 给 所 有 处 理 器 。 每 个 处 理 器 均 具 有 高 效 的 流水 线 操作 能 力 ， 
使 指令 在 流水 线 中 并 行 的 操作 以 实现 高 效 的 数据 检索 。 一 个 检索 操作 会 被 
分 解 为 尽 可 能 多 的 简单 操作 ， 并 将 每 个 操作 分 配 到 对 应 的 处 理 器 中 执行 ， 
因此 被 使 用 的 处 理 器 与 检索 操作 的 复杂 度 紧 密 相关 。 SURE 架构 的 目标 是 优 
化 数据 库 检索 操作 ， 因 此 通常 被 作为 一 个 完整 的 数据 库 机 的 检索 处 理 功能 
单元 部 分 使 用 。 

3) 多 处 理 器 缓存 架构 

在 解决 PPT 架构 在 大 数据 情况 下 磁道 容量 问题 时 ， 一 部 分 研究 者 提出 
了 不 同 PPH 架构 的 思路 ， 即 将 原来 直接 相连 的 处 理 器 与 存储 组 件 分 离 ， 采 
用 一 个 大 容量 的 共享 缓存 将 两 者 相连 。 这 样 做 的 目的 是 充分 利用 多 处 理 器 
的 并 行 读 取 的 高 速 处 理 能 力 和 通用 大 容量 存储 设备 的 低 成 本 优势 。 多 处 理 
器 缓存 架构 结构 图 如 图 4-10 所 示 。 
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图 4-10 多 处 理 器 缓存 架构 结构 图 
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在 MPC 架构 中 ， 新 引入 的 共享 缓存 机 制 发 挥 了 关键 性 的 作用 。 一 方面 
存储 组 件 中 的 数据 复制 到 共享 缓存 后 即 可 被 所 有 处 理 器 并 行使 用 ， 另 一 方 
而 处 理 器 运算 后 获得 的 处 理 结果 也 可 以 存 入 共享 缓存 中 ， 使 后 续 处 理 更 加 
方便 快捷 。 作 为 后 起 之 秀 ，MPC 架构 得 到 很 多 研究 者 的 认可 ， 并 沿 着 MPC 
架构 的 方向 提出 了 多 种 实现 架构 ， 包 括 RAP2、DIRECT、INFOPLEX、 
RDBM、DBMAC 等 。 还 有 一 些 研究 者 将 PPH 架构 与 MPC 架构 结合 , 提出 
了 一 些 混合 架构 以 发 挥 两 者 的 优势 。 这 里 将 主要 介绍 两 种 影响 较 大 的 MPC 
架构 RAP2 和 DIRECT。 

(1) RAP2 架构 

RAP2 架构 是 从 PPT 架构 的 RAP 方案 进化 而 来 , RAP2 继承 了 RAP 中 
按 关系 规则 存储 数据 的 方式 ， 但 是 从 以 下 两 个 方面 进行 了 重要 改进 : 一 是 
子 存储 部 件 使 用 可 进行 块 寻 址 的 内 存 组 件 取 代 了 原来 的 磁盘 磁道 ， 以 解决 磁 
道 存 储 容量 问题 和 实现 降低 成 本 。 二 是 子 处 理 器 之 间 不 再 采用 直接 相连 的 架 
构 ， 而 是 使 用 一 个 数据 总 线 进行 连接 ， 以 实现 更 加 高 效 可 靠 的 数据 传输 。 

(2) DIRECT 架构 

DIRECT 架构 中 , 多 个 子 处 理 器 负责 执行 数据 库 操 作 , 这 些 子 处 理 器 由 
一 个 控制 处 理 器 进行 协调 ， 控 制 处 理 器 的 功能 是 分 配 数据 库 机 受到 的 操作 
指令 并 监控 发 送 到 主 处 理 器 中 。 数 据 存储 部 件 采 用 移动 磁头 的 大 容量 磁盘 ， 
相同 关系 型 数据 表 中 的 数据 采用 相同 的 固定 长 度 页 面 形式 存储 ， 并 在 缓存 
时 也 采用 相同 长 度 的 页 面 存储 ， 以 确保 高 效 的 数据 访问 。 


3. 数据 存储 系统 的 容错 性 


数据 存储 容错 是 指 当 系统 中 的 部 件 或 节点 由 于 硬件 或 软件 故障 ， 导 致 
数据 、 文 件 损坏 或 丢失 时 ， 系 统 能 够 自动 将 这 些 损坏 或 丢失 的 文件 和 数据 
恢复 到 故障 发 生前 的 状态 ， 使 系统 能 够 维持 正常 运行 的 技术 。 从 支撑 的 技 
术 角 度 来 分 ， 目 前 主要 的 数据 存储 容错 技术 包括 以 下 3 类 。 

(1) 磁盘 镜像 和 磁盘 双 工 

磁盘 镜像 和 磁盘 双 工 是 中 小 型 网 络 系统 中 经 常 使 用 的 容错 技术 。 磁 盘 
镜像 是 指 将 两 个 硬盘 接 在 同一 个 硬盘 控制 卡 上 ， 用 同一 个 硬盘 控制 卡 来 管 
理 两 个 硬盘 的 数据 读 写 ， 其 结构 如 图 4-11 (a) 所 示 ， 当 系统 向 服务 器 写 入 
数据 时 ， 该 部 分 数据 将 同时 写 入 两 个 硬盘 。 当 出 现 一 个 硬盘 损坏 时 ， 可 以 
从 男 一 个 硬盘 获得 数据 ， 确 保 系统 正常 运行 。 从 理论 上 来 说 ， 磁 盘 镜 像 可 
以 成 倍 提 高 系统 的 可 靠 性 。 在 磁盘 镜像 中 磁盘 可 以 划分 主 盘 和 从 盘 ， 主 盘 
是 系统 中 原 有 的 一 个 硬盘 或 已 存放 数据 的 一 个 磁盘 ， 从 盘 则 为 存放 主 盘 数 
据 的 磁盘 。 从 磁盘 镜像 结构 图 中 可 以 看 出 ， 如 果 磁盘 控制 器 出 现 故 障 ， 则 
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主机 无 法 使 用 任何 一 个 磁盘 上 的 数据 ， 镜 像 的 容错 功能 完全 失效 。 为 了 改 
进 这 一 问题 ， 磁 盘 双 工 技术 采用 了 两 个 独立 的 磁盘 控制 器 分 别 控制 两 个 磁 
盘 ， 从 而 避免 了 磁盘 控制 器 的 单 点 故障 问题 。 磁盘 双 工 的 结构 如 图 4-11 (b) 
所 示 。 
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4-11 ”磁盘 镜像 与 磁盘 双 工 结构 图 


(2) 基于 RAID 的 磁盘 容错 

元 余 磁 盘 阵 列 (Redundant Arrays of Inexpensive Disks，RAID) 技术 的 
基本 原理 是 采用 多 块 价格 较 便 宜 的 磁盘 ， 组 成 一 个 容量 巨大 的 磁盘 阵列 ， 
配合 数据 分 散 存储 设计 ， 提 升 数据 存储 容错 性 。RAID 技术 分 为 多 个 等 级 ， 
以 数字 编号 。 比 较 常见 的 等 级 有 RAID0、RAID1、RAID3、RAID5。 

RAID0 以 连续 的 位 或 字 节 为 单位 对 数据 进行 分 割 ， 在 多 个 磁盘 上 可 以 
并 行进 行 读 写 操作 ， 因 此 具有 很 高 的 数据 传输 效率 。 但 它 没 有 数据 元 余 能 
力 ， 因 此 不 能 提高 容错 性 。 

RAID1 通过 磁盘 镜像 实现 数据 元 余 ， 在 成 对 的 独立 磁盘 上 产生 互 为 备 
份 的 数据 。 当 一 个 磁盘 失效 时 ， 系 统 可 以 自动 切换 到 镜像 磁盘 上 读 写 ， 而 
不 需要 重组 失效 的 数据 。 

RAID0 和 RAID1 有 时 会 被 组 合 到 一 起 使 用 构成 RAIA10 或 RAID01， 
这 样 做 的 优点 是 具备 了 RAID0 的 高 传输 率 和 RAID1 的 高 可 靠 性 ,但 是 磁盘 
的 利用 率 比较 低 。RAID3 是 将 数据 条 块 化 分 布 于 不 同 硬盘 上 ， 使 用 简单 的 
奇偶 校 验 并 存放 在 单独 的 磁盘 上 。 如 果 一 块 磁盘 损坏 ， 使 用 奇偶 校 验 盘 及 
其 他 磁盘 中 的 数据 可 以 重组 出 故障 盘 上 的 数据 。RAID3 对 于 大 量 的 连续 数 
据 可 提供 很 好 的 传输 率 ， 但 对 于 随机 数据 来 说 ， 奇 偶 校 验 盘 容易 成 为 写 操 
作 的 瓶颈 。 

RAIDS 不 使 用 单独 的 磁盘 存放 校 验 数据 ， 而 是 在 所 有 磁盘 上 交叉 地 存 
取 数 据 和 奇偶 校 验 信息 ， 在 RAID5 上 ， 读 写 指针 可 同时 对 阵列 设备 进行 操 
作 ， 实 现 了 更 高 的 数据 传输 效率 ， 因 此 更 适合 小 数据 块 和 随机 读 写 数据 。 

但 是 RAID 技术 构建 的 磁盘 阵列 ， 也 存在 一 个 潜在 的 单 点 故障 ， 那 就 
是 RAID 通道 。 当 了 RAID 通道 出 现 故 障 时 ， 所 有 的 数据 就 不 能 读 出 。 因 此 在 
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RAID 系统 中 还 可 以 使 用 匈 余 的 RAID 控 制 卡 提高 系统 容错 性 。 当 多 个 RAID 
控制 卡 中 的 一 个 出 现 故 障 时 ， 不 会 影响 系统 的 整体 可 用 性 。 通 常 使 用 双 
RAID 控制 卡 系统 有 两 种 实现 方式 : 一 种 是 全 激活 方式 ， 即 两 个 RAID 通道 
相互 独立 同时 运行 ， 两 者 之 间 通 过 心跳 方式 监控 状态 ， 当 其 中 一 个 出 现 故 
障 时 ， 另 一 个 会 自动 接管 其 工作 ， 而 故障 恢复 后 自动 回 到 独立 双 通 道 工作 状 
态 。 另 一 种 是 主 备 方式 ， 主 控制 器 负责 全 部 磁盘 的 控制 ， 备 用 控制 器 通过 心 
跳 监控 主 控制 器 状态 ， 当 主 控制 器 出 现 故障 时 ， 备 用 控制 器 会 接管 任务 。 

(3) 基于 集群 的 数据 容错 

基于 集群 的 数据 容错 是 构建 在 多 台 存 储 节点 上 的 容错 技术 。 集 群 容错 
的 基本 思想 是 将 同一 份 数 据 在 集群 中 的 不 同 节点 中 进行 元 余 存 储 ， 确 保 部 
分 节点 的 故障 不 会 导致 系统 整体 的 正常 运行 。 以 比较 简单 的 双 机 容错 为 例 ， 
其 数据 存储 容错 可 以 采用 两 种 方式 ， 双 机 互 援 模式 和 双 机 热 备 模式 。 在 双 
机 互 援 模式 下 ， 两 台 存储 节点 均 为 独立 的 数据 服务 节点 ， 但 互相 之 间 通 过 
某 种 机 制 检测 对 方 的 运行 状态 ， 当 其 中 一 个 节点 出 现 故障 ， 另 一 个 节点 可 
以 自动 接管 故障 点 原 有 的 工作 ， 确 保 系统 正常 运行 。 而 在 双 机 热 备 模式 下 ， 
仅 有 一 台 节 点 作为 工作 节点 ， 另 一 台 节点 以 热 备份 的 形式 运行 ， 备 份 节点 
会 通过 某 种 机 制 获取 工作 节点 上 存储 的 数据 并 监控 工作 节点 运行 状态 ， 以 
确保 在 工作 点 出 现 故 障 时 ， 备 份 节点 可 以 平滑 的 变 为 工作 节点 ， 以 提供 完 
整 的 数据 服务 。 











4.1.2 ”管理 问题 


存储 管理 是 大 数据 的 研究 与 应 用 中 “重要 组 件 ”， 它 已 经 悄然 潜入 我 们 
日 常生 活 的 方方面面 。 因 为 我 们 使 用 移动 终端 设备 会 不 断 产 生 数据 ， 我 们 
用 计算 机 访问 网 页 也 会 产生 数据 ， 我 们 生活 的 城市 、 小 区 遍布 的 摄像 头 也 
同样 产生 数据 。 利 用 这 些 海量 的 数据 来 改善 人 们 的 日 常生 活 ， 提 高 企业 运 
营 能 力 的 过 程 都 离 不 开 数据 的 存储 与 管理 。 而 这 些 大 量 的 数据 结构 复杂 ， 
种 类 繁多 ， 如 何 对 分 布 、 多 态 、 异 构 的 大 数据 进行 管理 的 问题 已 经 不 期 而 
至 ， 传 统 的 数据 存储 方式 面 对 大 数据 的 猛烈 增长 已 不 能 满足 需求 ， 需 要 开 
展 分 布 式 存储 的 研究 ， 大 数据 的 分 布 式 存储 主要 涉及 以 下 几 个 管理 技术 。 


1. 存储 资源 管理 方法 


为 了 解决 集群 存储 环境 下 的 存储 资源 管理 问题 ， 采 用 存储 资源 映射 方 
法 通过 在 物理 资源 和 虚拟 存储 资源 请 求 之 间 建 立 合理 的 映射 关系 ， 来 进行 
有 效 的 存储 资源 管理 。 国 内 外 相关 研究 提出 合理 的 集群 存储 资源 映射 方法 ， 
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将 虚拟 存储 资源 请 求 均匀 地 分 配 到 节点 上 ， 然 后 进行 节点 内 部 设备 级 别 的 
资源 映射 。 

2. 支持 多 用 户 的 资源 使 用 和 存储 环境 隔离 机 制 

当 用 户 数量 增多 ， 有 限 的 存储 资源 已 经 不 能 满足 用 户 对 该 类 资源 的 需 
求 时 ， 用 户 与 资源 的 矛盾 就 会 凸显 出 来 。 解 决 这 种 矛盾 的 最 有 效 的 方法 就 
是 采取 有 效 资源 共享 机 制 ， 将 有 限 数量 的 资源 按 需 求 动态 共享 给 多 个 用 户 
使 用 。 此 外 ， 在 存储 资源 共享 的 同时 ， 从 用 户 角度 看 每 个 应 用 系统 都 是 独 
立 的 ， 不 依赖 与 其 他 应 用 系统 运行 而 运行 ， 也 不 受 其 他 应 用 系统 和 资源 运 
行 结果 的 影响 ， 因 此 需要 存储 环境 隔离 技术 来 屏蔽 各 个 应 用 系统 对 存储 资 
源 运行 的 互相 影响 。 

研究 表明 ， 利 用 存储 虚拟 化 技术 来 整合 不 同 厂商 的 存储 系统 ， 通 过 隔 
离 主机 层 与 物理 存储 资源 , 存储 虚拟 化 技术 可 以 将 来 自 于 不 同 存储 设备 ( 即 
使 是 不 同 厂商 的 设备 ) 的 存储 容量 汇集 到 一 个 共享 的 逻辑 资源 池 中 ， 这 样 
存储 的 管理 就 更 容易 。 任 何 单 体 存储 阵列 所 创建 的 物理 卷 的 容量 都 是 有 限 
制 的 ， 而 多 个 异 构 的 存储 系统 联合 在 一 起 就 可 以 创建 出 一 个 更 大 的 逻辑 卷 。 


3. 基于 Hadoop 的 大 数据 存储 机 制 


大 数据 的 各 类 描述 方式 的 多 样 性 ， 存 在 着 结构 化 数据 、 半 结构 化 数据 
和 非 结构 化 数据 需要 进行 处 理 。 对 于 结构 化 数据 ， 虽 然 现 在 出 现 了 各 种 各 
样 的 数据 库 类 型 ， 但 通常 的 处 理 方式 仍 是 采用 关系 型 数据 知识 库 进行 处 理 
对 于 半 结 构 和 非 结构 化 的 知识 ，Hadoop 框架 提供 了 很 好 的 解决 方案 。 

Hadoop 分 布 式 文件 系统 HDFS 是 建立 在 大 型 集群 上 可 靠 存储 大 数据 的 
文件 系统 ， 是 分 布 式 计算 的 存储 基石 。 基 于 HDFS 的 Hive 和 HBase 能 够 很 
好 地 支持 大 数据 的 存储 。 具体 来 说 , 使 用 Hive 可 以 通过 类 SQL 语句 快速 实 
现 MapReduce 统计 ， 十 分 适合 数据 仓库 的 统计 分 析 。HBase 是 分 布 式 的 、 
基于 列 存储 的 、 非 关系 型 数据 库 ， 它 的 查询 效率 很 高 ， 主 要 用 于 查询 和 展 
示 结 果 。Hive 是 分 布 式 的 关系 型 数据 仓库 ， 主 要 用 来 并 行 处 理 大 量 数据 。 
将 Hive 与 HBase 进行 整合 ， 共 同 用 于 大 数据 的 处 理 ， 可 以 减少 开发 过 程 
提高 开发 效率 。 使 用 HBase 存储 大 数据 ， 使 用 Hive 提供 的 SQL 查询 语言 
可 以 十 分 方便 地 实现 大 数据 的 存储 和 分 析 。 


4.1.3 ”应 用 问题 


数据 量 的 爆炸 式 增 长 不 断 刺 激 着 计算 机 技术 的 发 展 ， 如 何 利用 大 数据 
为 人 们 生活 所 用 ， 即 是 大 数据 的 应 用 问题 。 大 数据 的 应 用 在 人 类 活动 中 所 
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涉及 的 范围 越 来 越 大 ， 与 我 们 已 经 密 不 可 分 。 关 于 大 数据 的 应 用 ， 通 过 介 
绍 几 种 大 数据 的 典型 应 用 示例 来 加 深 理 解 。 


1. 大 数据 在 高 能 物理 中 的 应 用 


高 能 物理 学 科 一 直 是 推动 计算 机 技术 发 展 的 主要 学 科 。 万 维 网 技术 的 
出 现 就 是 来 源 于 高 能 物理 对 数据 交换 的 需求 。 高 能 物理 是 一 个 天 然 需 要 面 
对 大 数据 的 学 科 ， 高 能 物理 学 家 经 常 需要 从 大 量 的 数据 中 去 发 现 一 些小 概 
率 的 粒子 事件 ， 这 跟 大 海 捞 针 一 样 。 目 前 世界 上 最 大 的 高 能 物理 实验 装置 
是 在 日 内 瓦 欧洲 核子 中 心 (CERN) 的 大 型 强 子 对 撞 机 。 如 图 4-12 所 示 ， 
其 主要 物理 目标 是 寻找 希 格 斯 粒子 。 现 在 最 新 的 大 型 强 子 对 撞 机 实验 每 年 
采集 的 数据 达 15PB。 高 能 物理 中 的 数据 特点 是 海量 且 没 有 关联 性 ,为 了 从 
海量 数据 中 找 出 有 用 的 事件 可 以 利用 并 行 计算 技术 对 各 个 数据 文件 进行 较 
为 独立 的 分 析 处 理 。 中 国 科 学 院 高 能 物理 研究 所 的 第 三 代 探 测 器 BESIII 产 
生 的 数据 规模 已 达 10PB 左右 ， 在 大 数据 条 件 下 ， 计 算 、 存 储 、 网 络 一 直 考 
验 着 高 能 所 的 数据 中 心 系统 。 在 实际 数据 处 理 时 ,BESIII 数据 分 析 甚 至 需要 通 
过 网 络 系统 调用 俄罗斯 、 美 国 、 德 国 及 我 国 国内 的 其 他 数据 中 心 来 协同 完成 。 




















1/ 
4-12 ”大 型 强 子 对 撞 机 


2. 百度 迁徙 


百度 迁徙 是 2014 年 百度 利用 其 位 置 服务 所 获得 的 数据 ， 将 人 们 在 春节 
期 间 位 置 移动 情况 用 可 视 化 的 方法 显示 在 屏幕 上 。 这 些 位 置信 息 来 自 于 百 
度 地 图 的 LBS 开放 平台 ， 通 过 安装 在 大 量 移动 终端 上 的 应 用 程序 获取 用 户 
位 置信 息 ， 这 些 数 以 亿 计 的 信息 通过 大 数据 处 理 系统 的 处 理 ， 可 以 反映 全 
国 总 体 的 迁移 情况 。 通 过 数据 可 视 化 ， 为 春运 时 人 们 了 解 春运 情况 和 决策 
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管理 机 构 进行 管理 决策 提供 了 第 一 手 的 信息 支持 。 这 一 大 数据 系统 所 提供 
的 服务 为 今后 政府 部 门 的 科学 决策 和 社会 科学 的 研究 提供 了 新 的 技术 手 
段 ， 也 是 大 数据 进入 人 们 生活 的 一 个 案例 。 


3. 搜索 引擎 是 大 家 最 为 熟悉 的 大 数据 系统 


成 立 于 1998 年 的 谷歌 和 成 立 于 2000 年 的 百度 在 简洁 的 用 户 界面 下 隐 
藏 着 世界 上 最 大 规模 的 大 数据 系统 。 搜 索引 擎 是 简单 与 复杂 的 完美 结合 ， 
目前 最 为 常见 的 开源 系统 Hadoop 就 是 按照 谷歌 的 系统 架构 设计 的 。 为 了 有 
效 地 完成 互联 网 上 数量 巨大 的 信息 收集 、 分 类 和 处 理工 作 ， 搜 索引 擎 系统 
大 多 是 基于 集群 架构 构建 的 ， 这 一 思路 也 被 谷歌 所 采用 ， 谷 歌 由 于 早期 搜 
索 利 润 微薄 只 能 利用 廉价 服务 器 来 实现 。 每 一 次 搜索 请 求 可 能 都 会 有 大 量 
服务 响应 ， 搜 索引 擎 是 一 个 典型 且 成 熟 的 大 数据 系统 ， 它 的 发 展 历程 为 大 
数据 研究 积累 了 宝贵 的 经 验 。 


4. 推荐 系统 


推荐 系统 在 电子 商务 网 站 上 应 用 可 以 说 是 无 处 不 在 ， 当 我 们 浏览 网 页 
时 会 看 见 某 个 位 置 出 现 一 个 商品 推荐 或 者 系统 弹出 一 个 商品 信息 ， 而 这 些 
商品 可 能 正 是 我 们 自己 感 兴趣 的 或 正 希 望 购买 的 商品 ， 这 就 是 推荐 系统 在 
发 挥 作用 。 推 荐 系统 是 大 数据 非常 典型 的 应 用 ， 只 有 基于 大 量 数据 的 分 析 ， 
推荐 系统 才能 准确 地 获得 用 户 的 兴趣 点 。 一 些 推荐 系统 甚至 会 结合 用 户 社 
会 网 络 来 实现 推荐 ， 这 需要 对 更 大 的 数据 集 进行 分 析 ， 从 而 挖掘 出 数据 之 
间 的 关联 性 。 推 荐 系统 使 大 量 看 似 无 用 的 用 户 访问 信息 产生 了 巨大 的 商业 
价值 ， 这 就 是 大 数据 的 成 功 应 用 。 





4.2 大 数据 存储 方式 


在 当今 技术 环境 下 ， 如 何平 衡 各 种 技术 ， 支 持 战 略 性 存储 并 保护 企业 
的 数据 ， 组 成 高 效 的 存储 系统 ， 及 时 考虑 数据 的 使 用 ， 确 保 企 业 数据 存储 
的 解决 方案 ， 使 企业 自信 的 引领 这 个 包含 大 量 、 广 泛 信息 的 时 代 是 眼下 急 
迫 解 决 的 问题 。 


4.2.1 分 布 式 系统 


分 布 式 系统 究竟 是 干什么 的 呢 ? 分 布 式 系统 就 是 利用 多 台 计 算 机 协同 
解决 单 台 计算 机 不 能 解决 的 计算 、 存 储 等 问题 。 换 名 话说， 分 布 式 系统 可 
以 解决 大 数据 存储 的 问题 ， 为 大 数据 的 存储 提供 了 方式 。 分 布 式 系统 是 多 
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个 独立 计算 机 的 集合 ， 而 这 些 计 算 机 对 于 用 户 来 说 就 像 单个 相关 系统 。 这 
样 的 定义 包括 以 下 两 个 方面 : 

口 硬件 方面 机 器 本 身 是 独立 的 。 

口 软件 方面 : 对 于 用 户 来 说 ， 他 们 就 像 跟 单个 系统 打交道 。 

这 两 个 方面 一 起 阐明 了 分 布 式 系统 的 本 质 ， 缺 一 不 可 。 既 然 分 布 式 系 
统 已 经 具备 如 此 大 的 能 力 ， 那 让 我 们 来 了 解 一 下 它 的 特性 有 哪些 : 

口 各 计算 机 之 间 的 差别 以 及 计算 机 之 间 通 信 方 式 的 差别 对 于 用 户 是 

隐藏 的 。 同 样 ， 用 户 也 看 不 到 分 布 式 系统 的 内 部 组 织 结构 。 

口 ”用 户 和 应 用 程序 无 论 何 时 何 地 都 能 够 以 一 种 一 致 和 统一 的 方式 与 

分 布 式 系统 进行 交互 。 

口 “分 布 式 系统 的 扩展 或 者 升级 应 该 是 相对 比较 容易 的 。 这 是 因为 分 
布 式 系统 是 由 独立 的 计算 机 组 成 ， 同 时 隐藏 了 单个 计算 机 在 系统 
中 承担 任务 的 细节 。 即 使 分 布 式 系统 中 某 些 部 分 可 能 暂时 发 生 故 
障 ， 但 其 整体 在 通常 情况 下 总 是 保持 可 用 。 用 户 和 应 用 程序 不 会 
察觉 到 哪些 部 分 正在 进行 替换 和 维修 ， 以 及 加 入 了 哪些 新 的 部 分 
来 为 更 多 的 用 户 和 应 用 程序 提供 服务 。 为 了 使 种 类 各 异 的 计算 机 
和 网 络 都 呈现 为 单个 的 系统 ， 分 布 式 系统 常常 通过 一 个 “软件 层 ” 
组 织 起 来 ， 该 “软件 层 ” 在 逻辑 上 位 于 由 用 户 和 应 用 程序 组 成 的 
名 层 与 由 操作 系统 组 成 的 低层 之 间 ， 如 图 4-13 所 示 。 这 样 的 分 布 
式 系统 有 时 又 被 称 为 中 间 件 (Middleware)。 


机 器 A 机 器 B 机 器 N 








Tr 








| 分 布 式 应 用 程序 | 


中 间 件 服务 
本 地 本 地 本 本 地 
OS OS OS 
网 络 


4-13 ”作为 中 间 件 组 织 的 分 布 式 系统 


现在 让 我 们 来 考察 一 下 分 布 式 系统 的 几 个 例子 ， 以 方便 我 们 理解 。 
第 一 个 例子 是 位 于 一 所 大 学 或 者 某 个 公司 部 门 里 的 工作 站 网 络 。 该 系 
统 除 了 包括 每 个 用 户 自己 的 工作 站 以 外 ， 还 应 包括 机 房 内 的 一 个 处 理 器 池 。 
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这 些 处 理 器 并 不 分 配给 特定 用 户 ， 而 是 根据 需要 进行 动态 调配 。 这 样 的 系 
统 可 以 包含 一 个 单一 的 文件 系统 ， 允 许 所 有 的 机 器 通过 相同 的 方法 并 且 使 
用 相同 路 径 名 来 访问 所 有 文件 。 并 且 ， 当 用 户 输入 一 个 命令 时 ， 系 统 将 寻 
找 执行 该 命令 的 最 佳 位 置 ， 也 许 会 在 用 户 自己 的 工作 站 上 直接 执行 该 命令 ， 
也 可 能 在 别人 的 一 个 空闲 工作 站 上 执行 ， 还 有 可 能 由 机 房 中 某 个 尚未 分 配 
的 处 理 器 执行 。 如 果 系 统 整体 外 观 和 行为 与 传统 的 单 处 理 器 分 时 系统 〈 即 
多 用 户 系统 ) 相似 ， 那 么 这 个 系统 就 可 以 看 作 是 分 布 式 系统 。 

第 二 个 例子 是 某 个 工作 流 信息 系统 ， 该 系统 支持 对 订单 的 自动 处 理 。 
一 般 情 况 下 ， 会 有 来 自 多 个 不 同 部 门 的 人 员 在 不 同 的 地 点 使 用 这 样 的 系统 。 
例如 ， 销 售 部 人 员 可 能 遍布 在 很 大 一 个 区 域 ， 甚 至 全 国 全 球 。 可 以 通过 电 
话 网 络 ( 或 者 蜂窝 电话 ) 连接 到 系统 的 膝 上 型 计算 机 下 达 订 单 。 收 到 的 订 
单 由 系统 自动 传送 到 计划 部 ， 接 着 新 的 内 部 调 货 订单 就 会 送 达 仓储 部 ， 同 
时 由 财务 部 处 理 账 单 。 该 系统 自动 将 订单 传送 到 相关 人 员 手 中 ， 用 户 根本 
看 不 到 系统 中 订单 处 理 的 物理 流程 ， 对 于 用 户 来 说 这 些 订 单 是 由 一 个 集中 
式 数据 库 处 理 的 一 样 。 

最 后 一 个 例子 是 万 维 网 。 它 提供 了 一 种 简单 、 一 致 并 且 统一 的 分 布 式 
文档 模型 。 要 查看 某 个 文档 ， 用 户 只 需 激活 一 个 引用 ( 即 链接 )， 文 档 就 会 
显示 在 屏幕 上 。 理 论 上 《但 是 目前 在 实际 中 并 不 是 这 样 ) 并 不 需要 知道 该 
文档 来 自 于 哪个 服务 器 ， 更 用 不 着 关心 服务 器 所 在 的 位 置 。 要 发 布 一 个 文 
档 也 很 简单 ， 只 需要 赋予 它 一 个 唯一 的 URL 名 ， 让 该 URL 指向 包含 文档 
内 容 的 本 地 文件 即 可 。 如 果 万 维 网 向 用 户 呈 现 的 是 一 个 庞大 的 集中 式 文档 
系统 ， 也 可 以 认为 它 是 一 个 分 布 式 系统 。 

为 了 方便 对 后 续 内 容 的 理解 ， 我 们 需要 了 解 “集群 ”的 概念 ， 以 及 集 
群 与 分 布 式 系统 的 关系 。 那 么 首先 什么 是 集群 ? 有 一 种 常见 的 方法 可 以 大 
幅度 提高 服务 器 的 安全 性 ， 这 就 是 集群 。 集 群 (Cluster) 技术 是 指 一 组 相互 
独立 的 计算 机 , 利用 高 速 通 信和 网 络 组 成 一 个 计算 机 系统 , 每 个 群集 节点 ( 即 
集群 中 的 每 台 计算 机 ) 都 是 运行 其 自己 进程 的 一 个 独立 服务 器 。 这 些 进 程 
可 以 彼此 通信 ， 对 网 络 客户 机 来 说 就 像 是 形成 了 一 个 单一 系统 ， 协 同 起 来 
向 用 户 提供 应 用 程序 、 系 统 资源 和 数据 ， 并 以 单一 系统 的 模式 加 以 管理 。 
一 个 客户 端 (Client) 与 集群 相互 作用 时 ， 集 群像 是 一 个 独立 的 服务 器 。 

计算 机 集群 技术 的 出 发 点 是 为 了 提供 更 高 的 可 用 性 、 可 管理 性 、 可 伸 
缩 性 的 计算 机 系统 。 一 个 集群 包含 多 台 拥有 共享 数据 存储 空间 的 服务 器 ， 
各 服务 器 通过 内 部 局 域 网 相互 通信 。 当 一 个 节点 发 生 故 障 时 ， 它 所 运行 的 
应 用 程序 将 由 其 他 节点 自动 接管 。 在 大 多 数 模式 下 ， 集 群 中 所 有 的 节点 拥 
有 一 个 共同 的 名 称 ， 集 群 内 的 任 一 节点 上 运行 的 服务 都 可 被 所 有 的 网 络 客 
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户 所 使 用 。 

分 布 式 系统 与 集群 有 怎样 的 关系 ? 分 布 式 系统 和 集群 从 表面 上 看 是 很 
类 似 的 ， 都 是 将 多 台 机 器 通过 网 络 连接 ， 解 决 某 个 问题 或 提供 某 个 服务 。 

从 广义 上 说 ， 集 群 是 分 布 式 系统 的 一 种 类 型 ， 即 基于 P2P 架构 的 分 布 
式 系统 。 

从 狭义 上 说 ， 集 群 是 所 有 节点 一 起 工作 ， 实 现 同一 服务 。 当 一 个 节点 
出 现 故障 ， 将 会 有 其 他 节点 接管 其 任务 ， 不 会 对 集群 有 任何 影响 。 而 分 布 
式 系统 是 系统 的 每 一 个 节点 ， 都 实现 不 同 的 服务 ， 如 果 一 个 节点 失效 ， 这 
个 服务 就 不 可 访问 。 在 实际 部 署 中 ， 分 布 式 系统 中 的 每 个 节点 都 可 以 是 一 
个 集群 ， 以 提高 服务 的 可 用 性 、 性 能 

前 面 我 们 提 到 了 分 布 式 系统 是 利用 多 台独 立 的 计算 机 协同 解决 单 台 计 
算 机 无 法 解决 的 计算 、 存 储 等 问题 ， 那 么 分 布 式 系统 解决 问题 的 规模 已 经 
远 远 超出 了 单 台 系统 所 能 处 理 的 计算 、 存 储 的 能 力 ， 即 数据 量 的 差异 明显 。 
将 一 个 大 数据 量 的 问题 利用 分 布 式 来 解决 ， 首 先 要 解决 的 是 如 何 将 问题 拆 
解 为 可 以 使 用 多 机 分 布 式 解决 ， 使 得 分 布 式 系统 中 的 每 台 机 器 负责 原 问题 
的 一 个 子 集 。 由 于 无 论 是 计算 还 是 存储 ， 其 问题 输入 对 象 都 是 数据 ， 所 以 
如 何 拆 解 分 布 式 系统 的 输入 数据 成 为 分 布 式 系统 的 基本 问题 ， 我 们 称 这 样 
的 数据 拆 解 为 数据 分 布 〈 存 储 ) 方式 。 分 布 式 系统 比较 常见 的 数据 分 布 方 
式 有 哈 希 方式 、 按 数据 范围 分 布 、 按 数据 量 分 布 和 一 致 性 哈 希 4 种 方式 。 
接 下 来 我 们 分 别 介绍 这 4 种 数据 分 布 方式 。 


1. 哈 希 方式 


哈 希 方式 是 最 常见 的 数据 分 布 方式 ， 其 方法 是 按照 数据 的 某 一 特征 计 
算 哈 希 值 ， 并 将 哈 希 值 与 机 器 中 的 机 器 建立 映射 关系 ， 从 而 将 不 同 哈 希 值 
的 数据 分 布 到 不 同 的 机 器 上 。 所 谓 数据 特征 可 以 是 Key-value 系统 中 的 Key 
也 可 以 是 其 他 与 应 用 业务 逻辑 相关 的 值 。 例 如 ， 一 种 常见 的 哈 希 方式 是 按 
数据 属于 的 用 户 ID 计算 哈 希 值 ， 把 集群 中 的 服务 器 按 0 到 机 器 数 减 1 进行 
编号 ， 再 用 哈 希 值 除 以 服务 器 个 数 ， 结 果 的 余数 作为 处 理 该 数据 的 服务 器 
编号 。 工 程 中 ， 往 往 需 要 考虑 服务 器 的 副本 了 见 余 ， 将 每 台 〈 比 如 2 台 ) 服 
务 器 组 成 一 组 ， 用 哈 希 值 除 以 总 的 组 数 ， 其 余数 为 服务 器 组 的 编号 。 图 4-14 
给 出 了 利用 哈 希 方式 分 布 数据 的 一 个 例子 ， 将 数据 按照 哈 希 值 分 配 到 4 个 
节 吉 上。 

可 以 将 哈 希 方式 想象 为 一 个 哈 希 表 ， 每 台 (组) 机 器 就 是 一 个 哈 希 表 
中 的 桶 ， 数 据 根 据 哈 希 值 分 布 到 各 个 桶 面 上 。 只 要 哈 希 函数 散 列 特性 较 好 ， 
哈 希 方式 可 以 较为 均匀 地 将 数据 分 布 到 集群 中 去 。 哈 希 方式 需要 记录 的 元 
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图 4-14” 哈 希 方式 分 布 数据 


信息 也 非常 简单 ， 任 何 时 候 任何 节点 只 需要 知道 哈 希 函数 的 计算 方式 及 模 
的 服务 器 总 数 就 可 以 计算 出 处 理 具体 数据 的 机 器 是 哪 台 。 

哈 希 分 布 数据 的 一 个 突出 缺点 表现 为 可 扩展 性 不 高 ， 一 旦 集群 规模 需 
要 扩展 ， 则 几乎 所 有 的 数据 需要 被 迁移 并 重新 分 布 。 工 程 中 ， 扩 展 哈 希 分 
布 数据 的 系统 时 ， 往 往 使 得 集群 规模 成 倍 扩展 ， 按 照 数量 重新 计算 哈 希 ， 
这 样 原 来 一 台 机 器 上 的 数据 需 迁 移 一半 到 另 一 台 对 应 的 机 器 上 才 可 完成 扩 
展 。 针 对 这 个 缺点 ， 提 出 一 种 思路 是 不 再 简单 的 将 哈 希 值 与 机 器 做 除法 取 
模 映 射 ， 而 是 将 对 应 关系 作为 元 数据 由 专门 的 元 数据 服务 器 管理 。 访 问 数 
据 时 ， 首 先 计 算 哈 希 值 并 查询 元 数据 服务 器 ， 获 得 该 哈 希 值 对 应 的 机 器 。 
同时 ， 哈 希 值 取 模 个 数 往往 大 于 机 器 个 数 ， 这 样 同一 台 机 器 上 需要 负责 多 
个 哈 希 取 模 的 余数 。 在 集群 扩容 时 ， 将 部 分 余数 分 配 到 新 加 入 的 机 器 并 迁 
移 对 应 的 数据 到 新 机 器 上 ， 从 而 使 得 扩容 不 再 依赖 机 器 数量 的 成 倍增 长 。 
这 种 做 法 就 需要 比较 复杂 的 机 制 来 维护 大 量 的 元 数据 。 

哈 希 分 布 数据 另 一 个 缺点 是 ， 一 旦 某 数据 特征 值 的 数据 不 均 时 ， 容 易 
出 现 “数据 倾斜 ”(Data Skew) 问题 。 例 如 某 系 统 中 以 用 户 ID 做 哈 希 分 数 
据 ， 当 某 个 用 户 ZD 的 数据 量 异 常 庞大 时 ， 该 用 户 的 数据 始终 由 某 一 台 服 务 
器 处 理 ， 假 如 该 用 户 的 数据 量 超过 了 单 台 服 务 器 处 理 能 力 的 上 限 ， 则 该 用 
户 的 数据 不 能 被 处 理 。 更 为 严重 的 是 ， 无 论 如 何 扩展 集群 规模 ， 该 用 户 的 
数据 始终 只 能 由 某 一 台 服 务 器 处 理 ， 都 无 法 解决 这 个 问题 。 图 4-15 给 出 了 
一 个 数据 倾斜 的 例子 , 当 使 用 用 户 的 IJD 分 数据 , 且 用 户 1 的 数据 非常 多 时 ， 
该 用 户 的 数据 全 部 堆积 到 节点 2 上 。 

在 这 种 情况 下 只 能 重新 选择 哈 希 的 数据 特征 , 例如 选择 用 户 人 D 与 另 一 
个 数据 维度 的 组 合作 为 哈 希 函数 的 输入 ， 如 这 样 做 ， 则 需要 完全 重新 分 布 
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图 4-15” 哈 希 方式 的 数据 倾斜 


数据 ， 在 工程 实践 中 可 操作 性 不 高 。 另 一 种 极端 的 思路 是 ， 使 用 数据 的 全 
部 而 不 是 某 些 维度 的 特征 计算 哈 希 ， 这 样 数 据 将 被 完全 打 散在 集群 中 。 然 
而 实践 中 有 时 并 不 这 样 做 ， 这 是 因为 这 样 做 使 得 每 个 数据 之 间 的 关联 性 完 
全 消失 ， 例 如 上 述 例子 中 一 旦 需要 处 理 某 种 指定 用 户 ID 的 数据 ， 则 需要 所 
有 的 机 器 参与 计算 ， 因 为 一 个 用 户 ID 的 数据 可 能 分 布 到 任何 一 台 机 器 上 。 
如 果 系 统 处 理 的 每 条 数据 之 间 没 有 任何 逻辑 上 的 联系 ， 则 可 以 使 用 全 部 数 
据 做 哈 希 的 方式 解决 数据 倾斜 问题 。 
2. 按 数据 范围 分 布 


按 数据 范围 分 布 是 另 一 种 常见 的 数据 分 布 方式 。 将 数据 按 特 征 值 的 值 域 
范围 划分 为 不 同 的 区 间 ， 使 得 集群 中 每 台 (组 ) 服务 器 处 理 不 同 区 间 的 数据 。 

例 4-1 已 知 某 系统 中 用 户 ID 的 值 域 范 围 是 [1，100), 集群 有 3 台 服 
务 器 ， 使 用 按照 数据 范围 分 布 数据 的 方式 。 将 用 户 ID 的 值 域 分 为 3 个 区 间 
[1，33)，[33，90)，[90，100)， 分 别 由 3 台 服 务 器 负责 处 理 。 本 例 的 示 
意图 如 图 4-16 所 示 。 
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需要 注意 的 是 ， 每 个 数据 区 间 的 数据 大 小 和 区 间 大 小 没有 关系 。 例 4-1 
中 按 用 户 ID 划分 的 3 个 区 间 ， 虽 然 DD 的 值 域 不 是 相等 大 小 ， 但 3 个 区 间 
的 数据 量 却 有 可 能 是 差不多 。 这 是 因为 可 能 有 的 用 户 ID 的 数据 量 大 ， 而 有 
些 用 户 ID 数据 量 小 ， 也 有 可 能 有 些 区 间 中 实际 存在 的 用 户 ID 多 ， 有 些 区 
间 中 实际 存在 的 用 户 ID 少 。 工程 中 , 为 了 数据 迁移 等 负载 均衡 操作 的 方便 ， 
往往 利用 动态 划分 区 间 的 技术 ,使 得 每 个 区 间 中 服务 的 数据 量 尽量 一 样 多 
当 某 个 区 间 的 数据 量 较 大 时 ， 通 过 将 区 间 “ 分 裂 ”的 方式 拆 分 为 两 个 区 间 
使 得 每 个 数据 区 间 中 的 数据 量 尽 量 维持 在 一 个 较为 固定 的 阀 值 之 下 。 与 哈 
希 分 布 数据 的 方式 只 需要 记录 哈 希 函数 及 分 桶 个 数 〈 机 器 数 ) 不 同 ， 按 数 
据 范围 分 布 数据 需要 记录 所 有 的 数据 分 布 情况 。 往 往 需 要 使 用 专门 的 服务 
器 在 内 存 中 维护 数据 分 布 信息 ， 称 这 种 数据 的 分 布 信息 为 一 种 元 信息 。 甚 
至 对 于 大 规模 的 集群 ， 由 于 元 信息 的 规模 非常 庞大 ， 单 台 计 算 机 无 法 独立 
维护 ， 需 要 使 用 多 台 机 器 作为 元 信息 服务 器 。 

例如 ， 某 分 布 式 系统 使 用 数据 范围 分 布 数据 的 方式 ， 每 个 数据 分 区 中 
保存 256MB 的 数据 ， 每 个 数据 分 区 有 3 个 副本 。 每 台 服 务 器 有 10TB 的 存 
储 容量 ， 集 群 规模 为 1 000 台 服 务 器 。 每 个 数据 分 区 需要 1KB 的 元 信息 记录 
数据 分 布 情况 及 副本 所 在 的 服务 器 。 1 000 台 服 务 器 的 总 存储 量 为 10 000TB， 
总 分 区 数 为 10 000TB/256MB=40M， 由 于 使 用 3 个 副本 ， 则 独立 分 区 数 为 
40M/3=13M， 需 要 的 元 信息 13M*1KB=13GB, 假设 考虑 到 读 写 压 力 单个 元 
数据 服务 器 可 以 维护 的 元 数据 量 为 2GB， 则 需要 7 台 元 数据 服务 器 。 哈 希 
分 布 数据 的 方式 使 得 系统 中 的 数据 类 似 一 个 哈 希 表 ， 按 范围 分 布 数据 的 方 
式 则 使 得 从 全 局 看 数据 类 似 一 个 B 树 ， 每 个 具体 的 服务 器 都 是 B 树 的 叶子 
结 点 ， 元 数据 服务 器 是 B 树 的 中 间 节 点 。 

使 用 范围 分 布 数据 方式 的 优点 是 可 以 灵活 地 根据 数据 量 的 具体 情况 拆 
分 原 有 数据 区 间 ， 拆 分 后 的 数据 区 间 可 以 迁移 到 其 他 机 器 ， 一 旦 需要 集群 
完成 负载 均衡 时 ， 按 使 用 范围 分 布 数据 的 方式 与 哈 希 方式 相 比 来 说 非常 灵 
活 。 另 外 ， 当 集群 需要 扩容 时 ， 可 以 随意 添加 机 器 ， 而 不 限 为 倍增 的 方式 ， 
只 需 将 原 机 器 上 的 部 分 数据 分 区 迁移 到 新 加 入 的 机 器 上 就 可 以 完成 集群 扩 
容 。 按 范围 分 布 数据 方式 的 缺点 是 需要 维护 较为 复杂 的 元 信息 。 随 着 集群 
规模 的 增长 ， 元 数据 服务 器 较为 容易 成 为 瓶颈 ， 从 而 需要 较为 负责 的 多 元 
数据 服务 器 机 制 解决 这 个 问题 。 


3. 按 数据 量 分 布 


按 数据 量 分 布 数据 的 方式 也 是 一 种 常见 的 数据 分 布 方式 ， 与 哈 希 方式 
和 按 数据 范围 分 布 有 所 区 别 的 是 按 数据 量 分 布 数据 与 具体 的 数据 特征 无 
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关 ， 而 是 将 数据 视 为 一 个 顺序 增长 的 文件 ， 并 将 这 个 文件 按照 某 一 较为 固 
定 的 大 小 划分 为 若干 数据 块 《Chunk)， 不 同 的 数据 块 分 布 到 不 同 的 服务 器 
上 。 与 按 数 据 范围 分 布 数据 的 方式 类 似 的 是 按 数 据 量 分 布 也 许 要 记录 数据 
块 的 具体 分 布 情况 ， 并 将 该 分 布 信息 作为 元 数据 使 用 元 数据 服务 器 管理 。 

由 于 与 具体 的 数据 特征 无 关 ， 按 数据 量 分 布 数据 的 方式 一 般 没 有 数据 
倾斜 的 问题 ， 数 据 总 被 均匀 切 分 并 分 不 到 集群 中 。 当 集群 需要 重新 负载 均 
衡 时 ， 只 需 通过 迁移 数据 块 即 可 完成 。 集 群 扩容 也 没有 太 大 限制 ， 只 需 将 
部 分 数据 库 迁 移 到 新 加 入 的 机 器 上 即 可 以 完成 扩容 。 按 数据 量 分 布 数据 的 
缺点 是 需要 管理 较为 复杂 的 元 信息 ， 与 按 范 围 分 布 数据 的 方式 类 似 ， 当 集 
群 规模 扩大 时 元 信息 的 数据 量 也 变 得 很 大 ， 高 效 的 管理 元 信息 成 为 新 的 研 
究 课 题 。 


4. 一 致 性 哈 希 


一 致 性 哈 希 (Consistent Hashing) 也 是 一 种 比较 广泛 使 用 的 数据 分 布 方 
式 。 一 致 性 哈 希 最 初 在 P2P 网 络 中 作为 分 布 式 哈 希 表 (DHT) 的 常用 数据 
分 布 算法 ， 一 致 性 哈 希 的 基本 方式 是 使 用 一 个 哈 希 函 数 计 算数 据 或 数据 特 
征 的 哈 希 值 ， 使 得 哈 希 函数 的 输出 值 域 为 一 个 封闭 的 环 ， 也 就 是 说 哈 希 函 
数 的 输出 最 大 值 是 最 小 值 的 前 序 ， 将 节点 随机 分 布 到 这 个 环 上 ， 每 个 节点 
负责 处 理 从 自己 开始 顺 时 针 至 下 一 个 节点 的 全 部 哈 希 值 域 上 的 数据 。 

例 4-2 某 个 一 致 性 哈 希 函数 值 域 为 [0，10)， 系统 有 3 个 节点 A、B、 
C， 这 3 个 节点 处 于 的 一 致 性 哈 希 的 位 置 分 别 为 1、4、9， 则 节点 A 负责 的 
值 域 范围 为 [1，4)， 节 点 B 负责 的 范围 为 [4，9)， 节 点 C 负责 的 范围 为 
[9，10) 和 [0，1)。 若 某 数据 的 哈 希 值 为 3， 则 该 数据 应 由 节点 A 负责 处 
理 。 图 4-17 给 出 了 这 个 例子 的 示意 图 。 














We 


图 4-17 一 致 性 哈 希 


哈 希 分 布 数据 的 方式 在 集群 扩容 时 非常 复杂 ,往往 需要 倍增 节点 个 数 ， 
与 之 相 比 一 致 性 哈 希 的 优点 在 于 可 以 任意 动态 添加 、 删 除 节 点 ， 每 次 添加 、 
删除 一 个 节点 仅 影响 一 致 性 哈 希 环 上 相 邻 的 节点 。 

例 4-3 假设 需要 在 上 图 中 增加 一 个 新 节点 D, 为 D 分 配 的 哈 希 位 置 为 
3， 则 首先 将 节点 A 中 [3，4) 的 数据 从 节点 A 复制 到 节点 D， 然 后 加 入 
节点 D 即 可 。 

使 用 一 致 性 哈 希 的 方式 需要 将 节点 在 一 致 性 哈 希 环 上 的 位 置 作为 元 信 
息 加 以 管理 ， 这 样 比 直接 使 用 哈 希 分 布 数 据 的 方式 要 复杂 ， 然 而 ， 节 点 的 
位 置信 息 只 与 集群 中 的 机 器 规模 相关 ， 其 元 信息 的 量 通常 比 按 数据 范围 分 
布 数据 和 按 数 据 量 分 布 的 元 信息 量 要 小 很 多 。 上 述 最 基本 的 一 致 性 哈 希 算 
法 有 很 明显 的 缺点 ， 随 机 分 布 节点 的 方式 导致 很 难 均匀 地 分 布 哈 希 值 域 ， 
尤其 在 动态 增加 节点 后 ， 即 使 原先 的 分 布 均匀 ， 但 也 很 难保 证 继续 均匀 ， 
由 此 带 来 的 另 一 个 较为 严重 的 缺点 是 当 一 个 节点 异常 时 ， 该 节点 的 压力 全 
部 转移 到 相 邻 的 一 个 节点 ， 当 加 入 一 个 新 节点 时 只 能 为 一 个 相 邻 节点 分 捧 
压力 。 

为 此 一 种 常见 的 改进 算法 是 引入 虚 节 点 (Virtual Node) 的 概念 ， 系 统 
初始 时 就 创建 许多 虚 节 点 ， 虚 节点 的 个 数 一 般 远大 于 未 来 集群 中 机 器 的 个 
数 ， 将 虚 节点 均匀 分 布 到 一 致 性 哈 希 值 域 环 上 ， 其 功能 与 基本 一 致 性 哈 希 
算法 中 的 节点 相同 。 为 每 个 节点 分 配 若干 虚 节 点 ， 操 作 数 据 时 ， 首 先 通过 
数据 的 哈 希 值 在 环 上 找到 对 应 的 虚 节 点 ， 进 而 查找 元 数据 找到 对 应 的 真实 
节点 。 使 用 虚 节 点 改进 有 多 个 优点 。 首 先 ， 一 旦 某 个 节点 不 可 用 ， 该 节点 
将 使 得 多 个 虚 节点 不 可 用 ， 从 而 使 得 多 个 相 邻 的 真实 节点 负载 失效 节点 的 
压力 。 同 理 ， 一 旦 加 入 一 个 新 节点 ， 可 以 分 配 多 个 虚 节点 ， 从 而 使 得 新 节 
点 可 以 负载 多 个 原 有 节点 的 压力 ， 从 全 局 来 看 ， 较 容易 实现 扩容 时 的 负载 
均衡 。 


4.2.2 NoSQL 数据 库 


提 到 数据 存储 ， 一 般 都 会 想到 关系 型 数据 库 。 但 是 关系 型 数据 库 也 不 
是 万 能 的 ， 它 也 有 不 足 之 处 ， 因 而 NoSQL 非 关 系 型 数据 库 应 运 而 生 。 
NoSQL 数据 库 究竟 是 什么 含义 呢 ? 它 是 “Not Only SQL” 的 缩写 ， 即 适用 
关系 型 数据 库 的 时 候 就 使 用 关系 型 数据 库 ， 不 适用 的 时 候 也 没 必 要 非 使 用 
关系 型 数据 库 不 可 ， 可 以 考虑 使 用 更 加 合适 的 数据 存储 方式 。 为 了 更 好 地 
理解 NoSQL 数据 库 ， 对 关系 型 数据 库 进行 了 解 很 有 必要 。 

在 1969 年 ， 埃 德 加 。 弗兰克 * 科 德 (Edgar Frank Codd) 发 表 了 一 篇 划 
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时 代 的 论文 ， 首 次 提出 了 关系 型 数据 库 模 型 的 概念 。 但 可 惜 的 是 ， 刊 登 论 
文 的 IBM Research Report 只 是 IBM 公司 的 内 部 刊物 ， 因 此 论文 反响 平平 ， 
1970 年 他 再 次 在 刊物 Communication of the 4CM 上 发 表 了 题 为 4 Relational 
Model of Data for Large Shared Data banks(《 大 型 共享 数据 库 的 关系 模型 》) 
的 论文 ， 终 于 引起 了 大 家 的 关注 。 科 德 所 提出 的 关系 型 数据 模型 的 概念 成 
为 现今 关系 型 数据 库 的 基础 。 当 时 的 关系 型 数据 库 由 于 硬件 性 能 低劣 、 处 
理 速度 过 慢 而 迟 迟 没有 得 到 实际 应 用 ， 但 之 后 随 着 硬件 性 能 的 提升 ， 加 之 
使 用 简单 、 性 能 优越 等 优点 ， 关 系 型 数据 库 得 到 了 广泛 的 应 用 。 

关系 型 数据 库 具 有 非常 好 的 通用 性 和 非常 高 的 性 能 ， 对 于 绝 大 多 数 应 
用 来 说 它 都 是 最 有 效 的 解决 方案 。 关 系 型 数据 库 作为 应 用 广泛 的 通用 型 数 
据 库 ， 它 的 突出 优势 主要 有 以 下 几 点 : 

口 保持 数据 的 一 致 性 (事务 处 理 ); 

日 于 以 标准 化 为 前 提 ， 数 据 更 新 的 开销 很 小 (相同 的 字段 基本 上 

都 只 有 一 处 ); 

口 ”可 以 进行 JOIN 等 复杂 查询 ; 

口 存在 很 多 实际 成 果 和 专业 技术 信息 (成熟 的 技术 )。 

其 中 保持 数据 的 一 致 性 是 关系 型 数据 库 的 最 大 优势 。 当 需要 保证 数据 
一 致 性 和 处 理 完整 性 的 时 候 ， 使 用 关系 型 数据 库 是 最 适合 不 过 的 。 但 是 有 
些 时 候 并 不 需要 JOIN， 对 上 述 关系 型 数据 库 的 优点 也 不 是 特别 需要 ， 这 时 
候 就 没 必 要 拘泥 于 关系 型 数据 库 了 。 

关系 型 数据 库 的 短 板 又 有 哪些 呢 ? 前 面 我 们 提 到 过 关系 型 数据 库 的 性 
能 非常 高 。 但 它 毕 竞 是 一 个 通用 型 的 数据 库 ， 并 不 适用 某 些 特殊 的 用 途 ， 
具体 来 说 它 不 擅长 的 处 理 主要 有 以 下 几 点 。 

(1) 大 量 数据 的 写 入 处 理 

在 数据 读 入 方面 ， 由 复制 产生 的 主 从 模式 〈 数 据 的 写 入 由 主 数据 库 负 
责 ， 数 据 的 读 入 由 型 数据 库 负 责 )， 可 以 比较 简单 地 通过 增加 从 数据 库 来 实 
现 规模 化 。 但 是 在 数据 写 入 方面 却 没有 简单 的 方法 来 解决 规模 化 的 问题 。 

(2) 为 有 数据 更 新 的 表 做 索引 或 表 结构 〈schema) 变更 

在 使 用 关系 型 数据 库 时 ， 为 了 加 快 查询 速度 需要 创建 索引 ， 为 了 增加 
必要 的 字段 就 一 定 需要 改变 表 结 构 。 为 了 进行 这 些 处 理 ， 需 要 对 表 进 行 共 
享 锁定 ， 这 期 间 数据 变更 〈 更 新 、 插 入 、 删 除 等 ) 是 无 法 进行 的 。 如 果 需 
要 进行 一 些 耗 时 操作 (例如 为 数据 量 比较 大 的 表 创 建 索 引 或 者 是 变更 其 表 
结构 )， 必 然 会 出 现 长 时 间 内 数据 可 能 无 法 进行 更 新 的 情况 。 

(3) 字段 不 固定 时 应 用 

如 果 字 段 不 固定 ， 利 用 关系 型 数据 库 也 是 比较 困难 的 。 一 种 方案 是 在 
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需要 的 时 候 ， 加 入 相应 字段 ， 这 在 实际 运用 中 每 次 都 进行 反复 的 表 结 构 变 
更 是 一 件 非常 痛苦 的 事 。 另 一 种 方案 是 预先 设 定 大 量 的 预备 字段 ， 这 样 做 
带 来 的 烦恼 是 很 容易 弄 不 清楚 字段 和 数据 的 对 应 状态 〈 即 哪个 字段 保存 哪 
些 数据 )， 不 易 操作 。 

(4) 对 简单 查询 需要 快速 返回 结果 的 处 理 

关系 型 数据 库 并 不 擅长 对 简单 的 查询 快速 返回 结果 。 这 是 因为 关系 型 
数据 库 是 使 用 专门 的 SQL 语言 进行 数据 读 取 , 它 需要 对 SQL 语言 进行 解析 ， 
同时 还 有 对 表 的 锁定 和 解锁 这 样 的 额外 开销 。 这 样 并 不 是 说 关系 型 数据 库 
太 慢 ， 而 是 当 希 望 对 简单 查询 进行 高 速 处 理 时 ， 没 有 必要 非 使 用 关系 型 数 
据 库 不 可 。 

为 了 弥补 上 述 不 足 ， 设 计 了 NoSQL 数据 库 。 它 不 是 对 关系 型 数据 库 的 
否定 ， 而 是 对 关系 型 数据 库 的 补充 ,增加 了 数据 存储 的 方式 。 那么, NoSQL 
数据 库 有 何 特点 可 以 对 具有 非常 好 的 通用 性 和 非常 高 的 性 能 的 关系 型 数据 
库 做 以 补充 ? 

首先 ，NoSQL 数据 库 易于 数据 的 分 散 。 如 前 所 述 ， 关 系 型 数据 库 并 不 
擅长 大 量 数据 的 写 入 处 理 。 原 本 关系 型 数据 库 就 是 以 JOIN 为 前 提 的 ， 也 就 
是 说 ， 各 个 数据 之 间 存 在 关联 是 关系 型 数据 库 得 名 的 主要 原因 。 为 了 进行 
JOIN 处 理 ， 关 系 型 数据 库 不 得 不 把 数据 存储 在 同一 个 服务 器 内 ， 这 不 利于 
数据 的 分 散 。 相 反 ，NoSQL 数据 库 原本 就 不 支持 JOIN 处 理 ， 各 个 数据 都 
是 独立 设计 的 ， 很 容易 把 数据 分 散 到 多 个 服务 器 上 。 由 于 数据 被 分 散 到 了 
多 个 服务 器 上 ， 减 少 了 每 个 服务 器 上 的 数据 量 ， 即 使 要 进行 大 量 数据 的 写 
入 操作 ， 处 理 起 来 也 更 加 容易 。 同 理 ， 数 据 的 读 入 操作 当然 也 同样 容易 。 

其 次 ,NoSQL 数据 库 能 适应 低 成 本 的 方式 来 提高 服务 器 对 大 数据 的 
处 理 能 力 。 让 我 们 来 设想 一 下 ， 如 果 想 要 使 服务 器 能 够 轻松 地 处 理 大 数 
据 ， 那 么 只 有 两 个 选择 ， 一 是 提升 性 能 ， 二 是 增 大 规模 。 屠 它们 之 间 有 
何不 同 ? 

提升 性 能 指 的 就 是 通过 提升 现行 服务 器 自身 的 性 能 来 提高 处 理 能 力 。 
这 是 一 个 非常 简单 的 方法 ， 程 序 方面 也 不 需要 进行 变更 ， 但 需要 一 些 费 用 。 
若 要 购买 性 能 翻 倍 的 服务 器 ， 需 要 花 钱 的 资金 往往 不 只 是 原来 的 2 倍 ， 可 
能 需要 达到 5~10 倍 。 这 种 方法 虽然 简单 ， 但 是 成 本 高 。 提 升 性 能 的 费用 的 
曲线 关系 如 图 4-18 所 示 。 

而 增 大 规模 指 的 是 使 用 多 台 廉价 的 服务 器 来 提高 处 理 能 力 。 它 需要 对 
程序 进行 变更 ， 但 由 于 使 用 廉价 服务 器 ， 可 以 控制 成 本 。 另 外 ， 以 后 想 要 
更 高 的 处 理 能 力 ， 只 需要 再 增加 服务 器 的 数量 就 可 以 了 。 图 4-19 为 提升 性 
能 和 增 大 规模 示意 图 。 
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图 4-18 提升 性 能 的 费用 与 性 能 曲线 
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图 4-19 提升 性 能 和 增 大 规模 


再 次 ，NoSQL 数据 库 用 途 非 常 广泛 。NoSQL 数据 库 虽 然 是 为 了 使 大 量 
数据 的 写 入 处 理 更 加 容易 而 设计 的 ， 但 如 果 不 是 对 大 量 数据 进行 操作 ， 
NoSQL 数据 库 的 应 用 就 没有 意义 了 吗 ? 答案 是 否定 的 。 的 确 ， 它 在 处 理 大 
量 数据 方面 很 有 优势 ， 但 实际 NoSQL 数据 库 还 有 各 种 各 样 的 特点 ， 如 果 能 
够 恰当 地 利用 这 些 特点 ， 它 就 会 非常 有 用 ， 如 希望 顺畅 地 对 数据 进行 缓存 
处 理 的 时 候 ， 希 望 对 数组 类 型 的 数据 进行 高 速 处 理 的 时 候 ， 希 望 进行 全 部 
保存 的 时 候 等 。 

NoSQL 数据 库 说 起 来 简单 ， 实 际 已 经 高 达 225 种 之 多 。 其 中 包括 键 值 
存储 、 文 档 型 数据 库 、 列 存储 数据 库 、 图 数据 库 、 对 象 数据 库 等 。 下 面 介 
绍 几 种 具有 代表 性 的 NoSQL 数据 库 及 它们 的 特点 。 可 到 NoSQL 数据 库 的 
官网 (http://nosql-database.org/) 去 了 解 一 下 。 

(1) 键 值 存储 

这 是 最 常见 的 NoSQL 数据 库 ， 它 的 数据 是 以 键 值 的 形式 存储 的 。 虽 然 
它 的 处 理 速度 非常 快 ， 但 是 基本 上 只 能 通过 键 的 完全 一 致 查询 获取 数据 。 
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根据 数据 的 保存 方式 可 以 分 为 临时 性 、 永 久 性 和 两 者 兼 上 共 3 种 。 

Q@ 临时 性 。 所 谓 临时 性 就 是 “数据 有 可 能 丢失 ”的 意思 。memcached 
把 所 有 的 数据 都 保存 在 内 存 中 ， 这 样 保 存 和 读 取 的 速度 非常 快 ， 但 是 当 
memcached 停止 的 时 候 ， 数 据 就 不 存在 了 。 由 于 数据 保存 在 内 存 中 ， 所 以 无 
法 操作 超出 内 存 容 量 的 数据 〈 旧 数据 会 丢失 )。 临 时 性 键 值 存储 的 特点 如 下 ; 

口 在 内 存 中 保存 数据 ; 

口 ”可 以 进行 非常 快速 的 保存 和 读 取 处 理 ; 

口 数据 有 可 能 丢失 。 

@ 永久 性 。 所谓 永久 性 键 值 存储 就 是 “数据 不 会 丢失 ”的 意思 ，Tokyo 
Tyrant、Flare、ROMA 等 就 属于 永久 性 键 值 存储 。 这 种 键 值 存储 不 像 
memcached 在 内 存 中 保存 数据 ， 而 是 把 数据 保存 在 硬盘 上 。 与 memcached 
在 内 存 中 处 理 数据 比 起 来 ， 由 于 必然 要 发 生 对 硬盘 的 IO 操作 ， 所 以 性 能 上 
还 是 有 差距 。 但 是 可 以 保证 的 是 数据 不 会 丢失 。 永久 性 键 值 存储 的 特点 如 下 : 

口 在 硬盘 上 保存 数据 ; 

口 ”可 以 进行 非常 快速 的 保存 和 读 取 处 理 〔 但 无 法 与 memcached 相 比 ); 

口 数据 不 会 丢失 。 

@ 两 者 兼 具 。 所 谓 两 者 兼 具 的 意思 就 是 “集合 了 临时 性 键 值 存储 和 永 
久 性 键 值 存储 的 优点 ”。Redis 就 属于 这 种 类 型 。Redis 首先 将 数据 保存 在 内 
存 中 ， 在 满足 特定 条 件 〈 默 认 是 15 分 钟 一 次 以 上 ，5 分 钟 内 10 个 以 上 ，1 
分 钟 内 10 000 个 以 上 的 键 值 发 生变 更 ) 的 时 候 将 数据 写 入 到 硬盘 中 。 这 样 
既 保 存 了 内 存 数据 的 处 理 速度 ， 又 可 以 通过 写 入 硬盘 来 保证 数据 的 永久 性 。 
这 种 类 型 的 数据 库 特 别 适 合 处 理 数组 类 型 的 数据 。 其 特点 如 下 : 

口 ”同时 在 内 存 和 硬盘 上 保存 数据 ; 

口 ”可 以 进行 非常 快速 的 保存 和 读 取 处 理 ; 

口 保存 在 硬盘 上 的 数据 不 会 消失 (可 以 恢复 ); 

口 适合 处 理 数 组 类 型 的 数据 。 

(2) 面向 文档 的 数据 库 

MongDB、CouchDB 是 面向 文档 的 数据 库 ， 它 们 属于 NoSQL 数据 库 ， 
但 与 键 值 存储 不 同 。 面 向 文档 的 数据 库 具 有 以 下 特征 。 

O@ 不 定义 表 结 构 。 即 使 不 定义 表 结 构 ， 也 可 以 像 定 义 了 表 结 构 一 样 使 
用 。 关 系 型 数据 库 在 变更 表 结 构 时 比较 费事 ， 而 且 为 了 保持 一 致 性 还 需要 
修改 程序 。 然 而 NoSQL 数据 库 则 可 省 去 这 些 麻 烦 ， 确 实 是 方便 快捷 。 

@ 可 以 使 用 复杂 的 查询 条 件 。 跟 键 值 存储 不 同 的 是 ， 面 向 文档 的 数据 
库 可 以 通过 复杂 的 查询 条 件 来 获取 数据 。 虽然 不 具备 事务 处 理 和 JOIN 这 些 
关系 型 数据 库 所 具有 的 处 理 能 力 ， 但 除 此 以 外 的 其 他 处 理 基 本 上 都 能 实现 ， 
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这 是 非常 容易 使 用 的 NoSQL 数据 库 。 

(3) 面向 列 的 数据 库 

Cassandra、Hbase、HyperTable 属于 这 种 类 型 。 由 于 近 些 年 来 数据 量 爆 
发 性 增长 ， 这 种 类 型 的 NoSQL 数据 库 尤 其 引 人 和 人 注目 。 普通 的 关系 型 数据 库 
都 是 以 行为 单位 来 存储 数据 的 ， 擅 长 进行 以 行为 单位 的 读 入 处 理 ， 比 如 特 
定 条 件数 据 的 获取 。 因 此 ， 关 系 型 数据 库 也 被 称 为 面向 行 的 数据 库 。 相 反 ， 
面向 列 的 数据 库 是 以 列 为 单位 来 存储 数据 的 ， 擅 长 以 列 为 单位 读 入 数据 。 
表 4-1 所 示 为 面向 行 的 数据 库 和 面向 列 的 数据 库 比较 。 

表 4-1 面向 行 的 数据 库 和 面向 列 的 数据 库 比 较 


数据 类 型 数据 存储 方式 优势 


面向 行 的 数据 库 以 行为 单位 对 少量 行进 行 读 取 和 更 新 
- 四 对 大 量 行 少数 列 进行 读 取 ， 对 所 有 行 的 
面向 列 的 数据 库 以 列 为 单位 特定 列 进行 同时 更 新 


面向 列 的 数据 库 具 有 高 扩展 性 ， 即 使 数据 增加 也 不 会 降低 相应 的 处 理 
速度 〈 特 别 是 写 入 速度 )， 所 以 它 主要 应 用 于 需要 处 理 大 量 数据 的 情况 。 另 
外 ， 利 用 面向 列 的 数据 库 的 优势 ， 把 它 作为 批 处 理 程序 的 存储 器 来 对 大 量 
数据 进行 更 新 也 非常 有 用 。 但 是 由 于 面向 列 的 数据 库 跟 现行 数据 库存 储 的 
思维 方式 有 很 大 不 同 ， 应 用 起 来 十 分 困难 。 








4.2.3 云 存 储 
1. 什么 是 云 存 储 


云 存 储 是 伴随 着 云 计 算 技术 的 发 展 而 衍生 出 来 的 一 种 新 兴 的 网 络 存储 
技术 ， 它 是 云 计算 的 重要 组 成 部 分 ， 也 是 云 计 算 的 重要 应 用 之 一 。 它 不 仅 
是 数据 信息 存储 的 新 技术 、 新 设备 模型 ， 也 是 一 种 服务 的 创新 模型 。 因 此 ， 
云 存 储 的 概念 是 指 通过 网 络 技术 、 分 布 式 文件 系统 、 服 务 器 虚拟 化 、 集 群 
应 用 等 技术 将 网 络 中 海量 的 异 构 存储 设备 构成 可 弹性 扩张 、 低 成 本 、 低 能 
耗 的 共享 存储 资源 池 ， 并 提供 数据 存储 访问 、 处 理 功 能 的 系统 服务 。 

当 云 计算 系统 运算 和 处 理 的 核心 是 大 量 数据 的 存储 与 管理 时 ， 云 计算 
系统 中 就 需要 配置 大 量 的 存储 设备 ， 这 时 的 云 计算 系统 就 转变 为 一 个 云 存 
储 系统 。 所 以 ， 云 存储 实际 上 也 是 一 个 以 数据 存储 和 管理 为 核心 的 云 计算 
系统 。 简 单 来 说 ， 云 存储 就 是 将 存储 资源 放 到 云 上 供 人 存 取 的 一 种 新 兴 方 
案 ， 使 用 者 可 以 在 任何 时 间 、 任 何 地 点 ， 通 过 任何 可 联网 的 设备 连接 到 云 
上 方便 地 存储 数据 。 所 以 ， 云 存储 也 是 对 大 数据 进行 处 理 的 一 种 方式 。 
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2. 云 存 储 的 分 类 


云 存储 可 以 分 为 公共 云 存 储 、 内 部 云 存储 和 混合 云 存 储 3 类 。 

(1) 公共 云 存储 

比如 亚马逊 公司 的 Simple Storage Service (S3) 和 Nutanix 公司 提供 的 
存储 服务 一 样 ， 他 们 可 以 低 成 本 地 提供 大 量 的 文件 存储 。 供 应 商 可 以 保持 
每 个 客户 的 存储 、 应 用 都 是 独立 私有 的 。 其 中 以 Dropbox 为 代表 的 个 人 云 
存储 服务 是 公共 云 存储 发 展 较为 突出 的 代表 ， 国 内 比较 突出 的 代表 有 搜狐 
企业 网 盘 、 百 度 云 盘 、360 云 盘 、115 网 盘 、 华 为 网 盘 、 腾 讯 微 云 等 。 公 共 
云 存储 可 以 划 出 一 部 分 用 作 私有 云 存 储 ， 一 个 公司 可 以 拥有 或 控制 基础 架 
构 以 及 应 用 的 部 署 ， 私 有 云 存储 可 以 部 署 在 企业 数据 中 心 或 相同 地 点 的 设 
施 上 。 私 有 云 可 以 由 公司 的 开 部 门 管理 ， 也 可 以 由 服务 供应 商 管理 。 

(2) 内 部 云 存储 

内 部 云 存储 跟 私 有 云 存 储 比较 类 似 ， 唯 一 的 不 同 点 在 于 它 在 企业 的 防 
火 墙 内 部 。 目 前 可 提供 私有 云 的 平台 主要 有 Eucalyptus、3A Cloud、 minicloud 
安全 办 公私 有 云 、 联 想 网 盘 等 。 

(3) 混合 云 存 储 

混合 云 存 储 把 公共 云 、 内 部 云 或 私有 云 结 合 在 一 起 。 主 要 用 于 按 客户 
要 求 的 访问 ， 特 别 是 需要 临时 配置 容量 的 时 候 ， 从 公共 云 上 划 出 一 部 分 容 
量 配置 一 种 内 部 云 或 私有 云 可 以 帮助 公司 面 对 迅 速 增长 的 负载 波动 或 高 
峰 。 正 因 如 此 ， 混 合 云 存 储 带 来 了 跨 公 共 云 和 私有 云 分 配 应 用 的 复杂 性 。 


3. 云 存储 的 特点 


(1) 低 成 本 

我 们 所 介绍 的 云 存 储 通常 是 由 大 量 的 普通 廉价 主机 构建 成 的 集群 ， 它 
可 以 是 跨 地 域 的 多 个 数据 中 心 ， 并 且 采 用 软件 架构 的 方式 来 保障 其 可 靠 性 
和 高 性 能 。 云 存储 的 容 灾 机 制 与 传统 存储 系统 中 的 故障 恢复 机 制 不 同 ， 在 
一 开始 的 架构 体系 设计 和 每 一 个 开发 环节 中 都 已 经 包含 了 云 存储 的 容 灾 机 
制 ， 且 快速 更 换 单位 不 是 单个 CPU、 内 存 等 硬件 ， 而 是 一 个 存储 主机 。 当 
集群 中 的 某 一 个 节点 的 硬件 出 现 故 障 时 ， 新 的 节点 就 会 更 换 掉 故障 节点 ， 
数据 就 能 自动 恢复 到 新 的 节点 上 。 由 此 可 见 ， 云 存储 的 出 现 ， 企 业 不 仅 不 
再 需要 购买 昂贵 的 服务 器 来 应 付 数据 的 存储 ， 还 节省 了 聘请 专业 IT 人 士 来 
管理 、 维 护 服务 器 的 劳务 开销 ， 大 大 降低 了 企业 的 成 本 。 

(2) 服务 模式 

实际 上 云 存储 不 仅 是 一 个 采用 集群 式 的 分 布 式 架构 ， 还 是 一 个 通过 硬 
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件 和 软件 虚拟 化 而 提供 的 一 种 存储 服务 。 其 显著 的 特点 就 是 按 需 使 用 ， 按 
量 收费 。 企 业 或 个 人 只 需 购 买 相应 的 服务 就 可 以 把 数据 存储 到 云 计算 存储 
中 心 ， 而 无 须 购买 并 部 署 这 些 硬 件 设备 来 完成 数据 的 存储 。 

(3) 可 动态 伸缩 性 

存储 系统 的 动态 伸缩 性 主要 指 的 是 读 / 写 性 能 和 存储 容量 的 扩展 与 缩 
减 。 一 个 设计 优良 的 云 存储 系统 可 以 在 系统 运行 过 程 中 简单 地 通过 添加 或 
移 除 节点 来 自由 扩展 和 缩减 ， 这 些 操作 对 用 户 来 说 都 是 透明 的 。 

(4) 高 可 靠 性 

云 存 储 系统 是 以 实际 失效 数据 分 析 和 建立 统计 模型 着 手 ， 寻 找 软 硬件 
失效 规律 ， 根 据 不 间断 的 服务 需求 设计 多 种 元 余 编 码 模式 ， 然 后 在 系统 中 
构建 具有 不 同 容 错 能 力 、 存 取 和 重 构 性 能 等 特性 的 功能 区 ， 通 过 负载 、 数 
据 集 和 设备 在 功能 区 之 间 自 动 匹配 和 流动 ， 实 现 系 统 内 数据 的 最 优 布局 ， 
并 在 站 点 之 间 提 供 全 局 精简 配置 和 公用 网 络 数据 及 带宽 复 用 等 高 效 容 灾 机 
制 ， 从 而 提高 系统 的 整体 运行 效率 ， 满 足 可 靠 性 要 求 。 

(5) 高 可 用 性 

云 存储 方案 中 包括 多 路 径 、 控 制 器 、 不 同 光纤 网 、 端 到 端的 架构 控制 、 
监控 和 成 熟 的 变更 管理 过 程 ， 从 而 很 大 程度 上 提高 了 云 存储 的 可 用 性 。 

(6) 超大 容量 存储 

云 存储 可 以 支持 数 十 PB 级 的 存储 容量 和 高 效 管理 上 百 亿 个 文件 , 同时 
还 具有 很 好 的 线性 可 扩展 性 。 

(7) 安全 性 

自从 云 计算 诞生 以 来 ， 安 全 性 一 直 是 企业 实施 云 计 算 首要 考虑 的 问题 
之 一 ， 同 样 在 云 存储 方面 ， 安 全 性 仍 是 首要 考虑 的 问题 。 所 有 云 存储 服务 
间 传 输 以 及 保存 的 数据 都 有 被 截取 或 自 改 的 隐患 ， 因 此 就 需要 采用 加 密 技 
术 来 限制 对 数据 的 访问 。 此 外 ， 云 存储 系统 还 采用 数据 分 片 混 淆 存储 作为 
实现 用 户 数 据 私密 性 的 一 种 方案 。 因 此 云 存 储 数据 中 心 比 传统 的 数据 中 心 
具有 更 高 的 数据 安全 性 。 


4. 存储 系统 的 类 别 


不 同类 型 的 数据 具有 不 同 的 访问 模式 ， 需 要 使 用 不 同类 型 的 存储 系统 。 
总 体 有 3 类 存储 系统 : 块 存储 系统 、 文 件 存储 系统 和 对 象 存储 系统 。 

(1) 块 存储 系统 

块 存储 系统 是 指 能 直接 访问 原始 的 未 格式 化 的 磁盘 。 这 种 存储 的 特点 
就 是 速度 快 、 空 间 利用 率 高 。 块 存储 多 用 于 数据 库 系统 ， 它 可 以 使 用 未 格 
式 化 的 磁盘 对 结构 化 数据 进行 高 效 读 写 。 而 数据 库 最 适合 存放 的 是 结构 化 




















数据 。 

(2) 文件 存储 系统 

文件 存储 系统 是 最 常用 的 存储 系统 。 使 用 格式 化 的 磁盘 为 用 户 提供 文 
件 系统 的 使 用 界面 。 当 我 们 在 计算 机 上 打开 或 关闭 文档 的 时 候 ， 所 看 到 的 
就 是 文件 系统 。 尽 管 文件 系统 在 磁盘 上 提供 了 一 层 有 用 的 抽象 ， 但 是 它 不 
适合 于 管理 大 量 的 数据 ， 或 者 超 量 使 用 文件 中 的 部 分 数据 。 

(3) 对 象 存储 系统 

对 象 存储 系统 是 指 一 种 基于 对 象 的 存储 设备 ， 具 备 智能 、 自 我 管理 能 
力 ， 通 过 Web 服务 协议 实现 对 象 的 读 写 和 存储 资源 的 访问 。 它 只 提供 对 整 
个 对 象 的 访问 ， 简 单 来 说 就 是 通过 特定 的 API 对 其 进行 访问 。 对 象 存储 的 
优势 在 于 它 可 以 存放 无 限 增长 的 内 容 ， 最 适合 用 来 存储 包含 文档 、 备 份 、 
图 片 、Web 页 面 、 视 频 等 非 结 构 化 或 半 结构 化 的 数据 。 除 此 之 外 ， 对 象 存 
储 还 具备 低 成 本 、 高 可 靠 的 优点 。 


4.3 ”数据 仓库 
4.3.1 数据 仓库 的 组 成 


1991 年 ，W .了 .Inmon 出 版 了 Building Data Warehouse 一 书 ， 第 一 次 
给 出 了 数据 仓库 的 清晰 定义 和 操作 性 极 强 的 指导 意见 ， 真 正 拉 开 了 数据 仓 
库 得 以 大 规模 应 用 的 序幕 。W，。 HH，Inmon 主张 建立 数据 库 时 采用 自 上 而 下 
(DWDM) 方式 ， 以 第 3 范式 进行 数据 仓库 模型 设计 。 在 该 书 中 , W*H .Inmon 
把 数据 仓库 定义 为 :“ 一 个 面向 主题 的 、 集 成 的 、 稳 定 的 、 随 时 间 变 化 的 数 
据 的 集合 ， 以 用 于 支持 管理 决策 过 程 。” 建 立 数据 仓库 的 目的 是 为 企业 高 层 
系统 地 组 织 、 理 解 和 使 用 数据 以 便 进 行 战略 决策 。 

数据 仓库 系统 以 数据 仓库 为 核心 ， 将 各 种 应 用 系统 集成 在 一 起 ， 为 统 
一 的 历史 数据 分 析 提 供 坚实 的 平台 ， 通 过 数据 分 析 与 报表 模块 的 查询 、 分 
析 工 具 OLAP《〈 联 机 分 析 处 理 )、 决 策 分 析 、 数 据 挖掘 完成 对 信息 的 提取 
以 满足 决策 的 需要 。 数 据 仓库 系统 通常 是 指 一 个 数据 库 环境 ， 而 不 是 指 一 
件 产品 。 数 据 仓库 系统 的 体系 结构 分 为 源 数据 层 、 数 据 存储 与 管理 层 .OLAP 
服务 器 层 和 前 端 分 析 工 具 层 。 


1. 数据 仓库 


数据 仓库 是 整个 数据 仓库 环境 的 核心 ， 是 数据 存放 的 地 方 和 提供 对 数 
据 检 索 的 支持 。 相 对 于 操作 型 数据 库 来 说 ， 其 突出 的 特点 是 对 海量 数据 的 


支持 和 快速 的 检索 技术 。 
2. 抽取 工具 


抽取 工具 把 数据 从 各 种 各 样 的 存储 环境 中 提取 出 来 ， 进 行 必要 的 转化 、 
整理 ， 再 存放 到 数据 仓库 内 。 对 各 种 不 同 数据 存储 方式 的 访问 能 力 是 数据 
抽取 工具 的 关键 。 其 功能 包括 : 删除 对 决策 应 用 没有 意义 的 数据 ， 转 换 到 
统一 的 数据 名 称 和 定义 ， 计 算 统 计 和 衍生 数据 ， 填 补缺 失 数据 ， 统 一 不 同 
的 数据 定义 方式 。 

3. 元 数据 

元 数据 是 关于 数据 的 数据 ， 在 数据 仓库 中 元 数据 位 于 数据 仓库 的 上 层 ， 
是 描述 数据 仓库 内 数据 的 结构 、 位 置 和 建立 方法 的 数据 。 通 过 元 数据 进行 
数据 仓库 的 管理 和 通过 元 数据 来 使 用 数据 仓库 。 


4. 数据 集 市 


数据 集 市 是 构建 数据 仓库 时 经 常用 到 的 一 个 词语 。 如 果 说 数据 仓库 是 
企业 范围 的 ， 收 集 的 是 关于 整个 组 织 的 主题 ， 如 顾客 、 商 品 、 销 售 、 资 产 
和 人 员 等 方面 的 信息 ， 那 么 数据 集 市 是 包含 企业 范围 数据 的 一 个 子 集 ， 例 
如 ， 只 包含 销售 主题 的 信息 ， 这 样 数据 集 市 只 对 特定 的 用 户 是 有 用 的 ， 其 
范围 限于 选 定 的 主题 。 数 据 集 市 面向 企业 中 某 个 部 门 〈 或 某 个 主题 ) 是 从 
数据 仓库 中 划分 出 来 的 ， 这 种 划分 可 以 是 逻辑 上 的 ， 也 可 以 是 物理 上 的 。 
数据 仓库 中 存放 了 企业 的 整体 信息 ， 而 数据 集 市 只 存放 了 某 个 主题 需要 的 
信息 ， 其 目的 是 减少 数据 处 理 量 ， 使 信息 的 利用 更 加 快捷 和 灵活 。 


5. OLAP 服务 


OLAP 服务 是 指 对 存储 在 数据 仓库 中 的 数据 提供 分 析 的 一 种 软件 , 它 能 
快速 提供 复杂 数据 查询 和 聚集 ， 并 帮助 用 户 分 析 多 维 数据 中 的 各 维 情况 。 


6. 数据 报表 、 数 据 分 析 和 数据 挖掘 


数据 报表 、 数 据 分 析 和 数据 挖掘 为 用 户 产生 的 各 种 数据 分 析 和 汇总 报 
表 ， 以 及 数据 挖掘 结果 。 


4.3.2 数据 仓库 的 构建 步骤 


在 图 4-20 中 可 以 看 出 ， 数 据 仓库 中 的 数据 来 自 于 多 种 业务 数据 源 ， 这 
数据 源 可 能 是 在 不 同 的 硬件 平台 上 ， 使 用 不 同 的 操作 系统 ， 因 而 数据 以 不 
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同 的 格式 存储 于 不 同 的 数据 库 中 。 如 何 向 数据 仓库 中 加 载 这 些 数量 大 、 种 
类 多 的 数据 ， 已 成 为 建立 数据 仓库 所 面临 的 一 个 关键 问题 。 在 实际 的 企业 
管理 中 ， 经 理 人 员 总 是 希望 能 随时 随地 访问 到 任何 他 们 需要 的 信息 ， 这 就 
要 求 有 一 个 体系 结构 来 容纳 各 种 各 样 的 内 部 数据 和 外 部 数据 。 例 如 ， 经 营 
数据 、 历 史 数据 、 现 行 数据 以 及 来 自 Intemet 服务 商 〈ISP) 的 数据 ， 此 外 
还 应 包含 易于 访问 的 元 数据 。 这 些 元 数据 因为 来 源 不 同 ， 具 有 大 量 、 分 散 
和 不 清洁 的 特点 ， 不 能 为 数据 仓库 直接 使 用 ， 而 对 所 有 数据 的 分 析 、 采 气 
活动 也 必须 建立 在 一 个 数据 清洁 、 结 构 良 好 的 数据 仓库 的 基础 之 上 ， 这 就 
需要 ETL 来 实现 。 

ETL 是 Extract、Transform、Load 这 3 个 单词 的 缩写 ， 也 就 是 抽取 、 转 
换 和 装载 。ETL 过 程 是 按照 统一 的 规则 ， 首 先 抽取 数据 源 中 的 数据 ， 然 后 
根据 一 定 的 转化 规则 转换 数据 ， 最 后 将 规范 的 转换 后 的 数据 装载 到 数据 仓 
库 中 去 。ETL 是 商务 智能 /数据 仓库 的 核心 和 灵魂， 是 负责 完成 数据 从 数据 
源 向 目标 数据 仓库 转化 的 过 程 ， 是 实施 数据 仓库 的 重要 步骤 。ETL 整个 过 
程 如 图 4-20 所 示 ， 其 中 包含 4 个 模块 : 数据 抽取 、 数 据 转换 、 数 据 装载 、 
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图 4-20 ”实施 数据 仓库 ( ETL ) 步骤 


1. 数据 抽取 


数据 抽取 是 将 数据 从 各 种 原始 的 业务 数据 中 读 取 出 来 ， 这 是 所 有 工作 
的 前 提 。 数 据 抽取 要 做 到 既 能 满足 决策 的 需要 ， 又 不 影响 业务 系统 的 性 能 。 
数据 抽取 主要 是 针对 各 个 业务 的 数据 源 及 数据 的 定义 。 制 定 出 可 操作 性 的 
数据 源 ， 制 定 增 量 抽 取 的 定义 。 确 定 如 何 抽取 或 查询 源 数据 并 非 易 事 ， 因 
为 它 往往 存储 在 多 个 地 方 , 可 能 是 一 个 RDBMS、 一 个 文本 文件 、 一 个 Excel 
文件 、 一 个 DBF 文件 或 其 他 类 型 文件 。 在 数据 抽取 之 前 ， 首 先 要 考虑 数据 
环境 和 ETL 开发 环境 的 接口 问题 。 对 于 不 同 平台 、 不 同形 式 、 不 同业 务 和 
不 同 数据 量 的 源 数 据 应 采用 不 同 的 数据 抽取 接口 。 典 型 的 源 数 据 接 口 有 数 
据 库 接口 (ODBC、OLEDB、 专 用 数据 库 接 口 等 ) 和 文件 接口 。 根 据 ETL 








se 一 第 4 章 大 数据 的 存储 


实际 ， 考 虑 抽取 的 效率 和 可 靠 性 ， 选 择 合适 的 元 数据 接口 。 数 据 抽取 可 以 
分 为 以 下 两 种 : 

(1) 全 量 抽取 

将 数据 进行 同步 处 理 后 ， 直 接 读 取 整 个 表 中 的 数据 作为 抽取 到 的 数据 ， 
主要 处 理 对 用 户 来 讲 非常 重要 的 数据 表 。 对 一 些 重要 的 更 新 数据 基本 采用 
这 种 方法 。 

(2) 增 量 抽取 

如 交易 数据 、 资 金明 细 这 些 流 水 数据 ， 可 以 根据 数据 表 中 流水 号 字段 
或 时 间 字 段 来 进行 采集 。 同 时 对 于 这 样 的 数据 表 在 实时 采集 阶段 ， 也 可 以 
记录 每 次 抽取 后 的 最 大 ID 号 maxID， 下 一 次 采集 时 可 以 获得 ID>maxID 的 
记录 作为 抽取 到 的 记录 集 。 在 实时 抽取 中 ， 这 种 方法 可 以 减少 抽取 数据 量 ， 
减少 网 络 流量 。 


2. 数据 转换 


数据 转换 是 按照 预先 设计 好 的 规则 将 抽取 的 数据 进行 转换 ， 使 得 本 来 
异 构 的 数据 格式 能 统一 起 来 。 它 是 真正 将 源 数 据 变 为 目标 数据 的 关键 环节 ， 
包括 数据 格式 转换 、 数 据 类 型 转换 等 。 在 数据 转化 过 程 中 ， 我 们 需要 对 数 
据 进行 清洗 、 整 理 和 集成 ， 即 发 现 数据 中 的 错误 数据 并 进行 相应 的 改正 ， 
将 原来 不 同 规则 的 数据 整理 集成 为 统一 的 规则 。 主 要 包括 以 下 几 点 : 

(1) 发 现 空 值 并 处 理 

发 现 源 数据 中 字段 空 值 ， 按 照 一 定 的 规则 进行 加 载 或 者 奉 换 ， 比 如 可 
以 用 “0” 或 者 按照 该 字段 的 平均 取 值 来 替换 。 

(2) 规范 数据 格式 

将 不 同 源 系统 的 不 同 数据 格式 统一 规范 。 例 如 ， 对 于 如 期 的 处 理 ， 可 
能 有 的 系统 定义 为 “data-time” 字 段 ， 有 的 系统 定义 为 类 似 于 “20041023” 
的 “char” 类 型 字段 ， 还 有 的 系统 定义 为 表示 “年 ”和 “月 ”的 两 个 “char” 
类 型 字段 。 转 化 过 程 需 要 将 这 些 不 同 的 表示 格式 统一 成 为 唯一 的 规范 格式 。 

(3) 拆 分 数据 

有 时 候 需 要 依据 业务 需求 对 字段 进行 分 解 。 比 如 通话 主 叫 号 码 
02381322854， 可 进行 区 域 码 和 电话 号 码 分 解 为 主 叫 地 区 023 和 主 叫 号 码 
81322854。 


3. 数据 装载 


数据 装载 是 把 经 过 转换 的 数据 按 计 划 增 量 或 全 部 导入 数据 仓库 中 去 。 
一 般 情况 下 ， 数 据 装载 应 该 在 系统 完成 了 更 新 之 后 进行 。 如 果 在 数据 仓库 
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中 的 数据 来 自 多 个 相互 关联 的 企业 系统 ， 则 应 该 保证 在 这 些 系 统 同步 工作 
时 移动 数据 。 数 据 装载 包括 基本 装载 、 追 加 装载 、 破 坏 性 合并 和 建设 性 合 
并 等 方式 。 


4. 元 数据 管理 


元 数据 (Metadata) 是 描述 数据 的 数据 ， 也 就 是 对 业务 数据 本 身 及 其 运 
行 环境 的 描述 与 定义 的 数据 。 在 数据 库 系 统 中 ， 元 数据 的 典型 代表 表现 为 
对 和 象 的 描述 ， 即 对 数据 库 、 表 、 列 、 列 属性 类型、 格式 、 约 束 等 ) 以 及 
主键 /外 部 键 关联 等 的 描述 。 在 ETL 系统 中 ， 元 数据 占有 更 为 重要 的 地 位 。 
所 有 的 抽取 数据 源 定 义 、 抽 取 数 据 项 定义 、 抽 取 规 则 、 数 据 转换 规则 、 数 
据 格式 变换 规则 、 装 载 方法 、 装 载 时 间 等 都 在 元 数据 中 定义 。 它 指导 数据 
抽取 、 转 换 、 装 载 的 全 过 程 。 


4.3.3 ”数据 集 市 


1. 数据 集 市 的 定义 


在 4.3.1 节 中 我 们 已 经 给 出 了 数据 集 市 的 定义 。 那 么 我 们 可 以 理解 数据 
集 市 是 一 个 小 型 的 部 门 或 者 工作 组 级 别 的 数据 仓库 。 


2. 数据 集 市 的 意义 与 功能 


虽然 OLTP 和 遗留 系统 拥有 宝贵 的 信息 ， 但 是 可 能 难以 从 这 些 系统 中 
提取 有 意义 的 信息 并 且 速 度 也 较 慢 。 而 且 这 些 系 统 虽 然 一 般 可 支持 预先 定 
义 操 作 的 报表 ， 但 却 经 常 无 法 支持 一 个 组 织 对 于 历史 的 、 联 合 的 、 智 能 的 
或 易于 访问 的 信息 的 需求 。 因 为 数据 分 布 在 许多 跨 系 统 和 平台 的 表 中 ， 而 
且 通 常 是 “ 脏 的 ”， 包 含 了 不 一 致 的 和 无 效 的 值 ， 使 得 难于 分 析 。 

数据 集 市 将 合并 不 同系 统 的 数据 源 来 满足 业务 信息 需求 。 若 能 有 效 地 
得 以 实现 ， 数 据 集 市 将 可 以 快速 且 方 使 地 访问 简单 信息 以 及 系统 的 和 历史 
的 视图 。 一 个 设计 良好 的 数据 集 市 有 如 下 功能 。 

Q@ 发 布 特定 用 户 群 体 所 需 的 信息 ， 通 常 是 一 个 部 门 或 者 一 个 特定 组 织 
的 用 户 ， 且 无 须 受制 于 源 系统 的 大 量 需 求 和 操作 性 危机 。 

@ 支持 访问 非 易 变 Cnonvolatile) 的 业务 信息 。 非 易 变 的 信息 是 以 预 
定 的 时 间 间 隔 进行 更 新 的 ， 并 且 不 受 OLIP 系统 进行 中 的 更 新 的 影响 。 

@ 调和 来 自 于 组 织 里 多 个 运行 系统 的 信息 ， 比 如 账目 、 销 售 、 库 存 和 
客户 管理 以 及 组 织 外 部 的 行业 数据 。 

@ 通过 默认 有 效 值 、 使 各 系统 的 值 保持 一 致 以 及 添加 描述 以 使 隐 含 代 
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码 有 意义 ， 从 而 提供 净化 的 〈Cleansed) 数据 。 

@ 为 即席 分 析 和 预定 义 报表 提供 合理 的 查询 响应 时 间 。 由 于 数据 集 市 
是 部 门 级 的 ， 相 对 于 庞大 的 数据 仓库 来 讲 ， 其 查询 和 分 析 的 响应 时 间 会 大 
大 缩短 。 


3. 数据 集 市 的 类 型 


数据 集 市 可 以 分 为 两 类 : 一 类 是 从 属 型 数据 集 市 ， 另 一 类 是 独立 型 数 
据 集 市 。 

(1) 从 属 型 数据 集 市 

从 属 型 数据 集 市 的 逻辑 结构 图 如 图 4-21 所 示 ， 所 谓 从 属 是 指 它 的 数据 
直接 来 自 中 央 数据 仓库 。 这 种 结构 能 保持 数据 的 一 致 性 ， 通 常会 为 那些 访 
问 数据 仓库 十 分 频繁 的 关键 业务 部 门 建立 从 属 数据 集 市 ， 这 样 可 以 很 好 地 
提高 查询 操作 的 反应 速度 。 

(2) 独立 型 数据 集 市 

独立 型 数据 集 市 的 逻辑 结构 图 如 图 4-22 所 示 ， 其 数据 直接 来 自 各 个 业 
务 系统 。 许 多 企业 在 计划 实施 数据 仓库 时 ， 往 往 出 于 投资 方面 的 考虑 ， 最 
终 建成 的 是 独立 的 数据 集 市 ， 用 来 解决 个 别 部 门 较为 迫切 的 决策 问题 。 从 
这 个 意义 上 讲 ， 它 和 企业 数据 仓库 除了 在 数据 量 和 服务 对 象 上 存在 差别 外 ， 
其 逻辑 结构 并 无 多 大 区 别 ， 也 许 这 就 是 把 数据 集 市 称 为 部 门 级 数据 仓库 的 
主要 原因 。 

















图 4-21 从 属 型 数据 集 市 图 4-22 ”独立 型 数据 集 市 
总 之 ， 数 据 集 市 可 以 是 数据 仓库 的 一 种 继承 ， 只 不 过 在 数据 组 织 形式 
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上 ， 数 据 集 市 处 于 相对 较 低 的 层次 。 

4. 数据 集 市 与 数据 仓库 的 区 别 

数据 集 市 与 数据 仓库 之 间 的 区 别 可 以 从 以 下 3 个 方面 进行 理解 。 

外 数据 仓库 向 各 个 数据 集 市 提供 数据 。 前 者 是 企业 级 的 ， 规 模 较 大 ， 
后 者 是 部 门 级 的 ， 相 对 规模 较 小 。 

@ 若干 个 部 门 的 数据 集 市 组 成 一 个 数据 仓库 。 数 据 集 市 开发 周期 短 、 
速度 快 ， 数 据 仓库 开发 周期 长 、 速 度 慢 。 

@ 从 其 数据 特征 进行 分 析 ， 数 据 仓库 中 数据 结构 采用 规范 化 模式 〈 第 
3 范式 )， 数 据 集 市 中 的 数据 结构 采用 星 型 模式 。 通 常数 据 仓库 中 的 数据 粒 
度 比 数据 集 市 的 粒度 要 细 。 


4.4 习题 


1. 大 数据 存储 面临 哪些 挑战 ， 面 对 这 些 挑战 有 什么 应 对 措施 ? 

2. 大 数据 存储 的 方式 有 哪些 ? 

3. 什么 是 分 布 式 系统 ? 分 布 式 系统 比较 常见 的 数据 分 布 方式 有 哪些 ? 

4. 请 简 述 NoSQL 数据 库 的 含义 。 常 见 的 键 值 存储 、 面 向 文档 的 数据 库 、 
面向 列 的 数据 库 的 特点 分 别 是 什么 ? 

5. 什么 是 云 存 储 ， 云 存储 的 分 类 、 特 点 是 什么 ? 

6. 请 简 述 数据 仓库 的 定义 ， 并 简要 介绍 数据 仓库 的 体系 结构 。 

7. 实施 数据 仓库 的 构建 步骤 有 哪些 ? 

8. 什么 是 数据 集 市 ? 其 具有 什么 功能 ? 





大 数据 分 析 


大 数据 价值 链 最 重要 的 一 个 环节 就 是 数据 分 析 ， 其 目标 是 提取 数据 中 
隐藏 的 数据 ， 提 供 有 意义 的 建议 以 辅助 制定 正确 的 决策 。 通 过 数据 分 析 ， 
人 们 可 以 从 杂乱 无 章 的 数据 中 茶 取 和 提炼 有 价值 的 信息 ， 进 而 找 出 所 研究 
对 象 的 内 在 规律 。 数 据 分 析 有 极 广泛 的 应 用 范围 。 在 产品 的 整个 生命 周期 
内 ， 数 据 分 析 过 程 是 质量 管理 体系 的 支持 过 程 ， 包 括 从 产品 的 市 场 调研 到 
售后 服务 以 及 最 终 处 置 都 需要 适当 运用 数据 分 析 ， 以 提升 产品 质量 、 客 户 
番 性 度 和 生产 效率 。 本 章 主要 闸 述 大 数据 分 析 的 基本 概念 和 相关 技术 。 首 
先 ， 介 绍 数据 分 析 的 类 型 ， 其 次 ， 说 明 数 据 分 析 的 一 般 方法 ， 再 次 ， 详 细 
阐述 数据 分 析 的 利器 一 一 数据 挖 据 ， 包 括 常 用 数据 挖掘 算法 、 数 据 挖掘 理 
论 方法 、 大 数据 挖掘 工具 及 数据 挖掘 算法 的 应 用 ; 最 后 ， 给 出 上 机 项 目 
实例 。 


5.1 数据 分 析 概 念 和 分 类 


5.1.1 数据 分 析 的 概念 和 作用 


数据 分 析 是 指 收集 、 处 理 数据 并 获取 数据 中 隐 含 的 信息 的 过 程 。 具 体 
地 说 ， 数 据 分 析 就 是 建立 数据 分 析 模 型 ， 对 数据 进行 核对 、 筛 查 、 复 算 、 
判断 等 操作 ， 将 目标 数据 的 实际 情况 与 理想 情况 进行 对 比分 析 ， 从 而 发 现 
审计 线索 ， 搜 集 审计 证 据 的 过 程 。 
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大 数据 具有 数据 量 大 、 数 据 结构 复杂 、 数 据 产生 速度 快 、 数 据 价 值 密 
度 低 等 特点 ， 这 些 特点 增加 了 对 大 数据 进行 有 效 分 析 的 难度 ， 大 数据 分 析 
(Big Data Analytics，BDA) 成 为 当前 探索 大 数据 发 展 的 核心 内 容 。 大 数据 
分 析 是 在 数据 密集 型 的 环境 下 ， 对 数据 科学 的 重新 思考 和 进行 新 的 模式 探 
索 的 产物 。 严 格 来 说 ， 大 数据 更 像 是 一 种 策略 而 非 技术 ， 其 核心 理念 就 是 
以 一 种 比 以 往 有 效 得 多 的 方式 来 管理 海量 数据 并 从 中 获取 有 用 的 价值 。 大 
数据 分 析 是 大 数据 理念 与 方法 的 核心 ， 是 指 对 海量 增长 快速 、 内 容 真实 、 
类 型 多 样 的 数据 进行 分 析 ， 从 中 找 出 可 以 帮助 决策 的 隐藏 模式 、 未 知 的 相 
关 关 系 以 及 其 他 有 用 信息 的 过 程 。 

大 数据 分 析 是 伴随 着 数据 科学 的 快速 发 展 和 数据 密集 型 范式 的 出 现 而 
产生 的 一 种 全 新 的 分 析 思 维和 技术 ， 大 数据 分 析 与 情报 分 析 、 云 计算 技术 
等 内 容 存 在 密切 的 关联 关系 。 有 专家 认为 ， 大 数据 的 数据 跟 过 去 传统 的 结 
构 性 的 数据 有 很 大 不 同 。 结 构 化 的 数据 相对 比较 单一 、 结 构 性 好 ， 而 大 数 
据 直接 源 自 于 自然 和 人 类 社会 ， 数 据 量 大 且 结 构 复 杂 。 还 有 专家 认为 大 数 
据 分 析 是 根据 数据 生成 机 制 ， 对 数据 进行 广泛 的 采集 与 存储 ， 并 对 数据 进 
行 格式 化 清洗 ， 以 大 数据 分 析 模 型 为 依据 ， 在 集成 化 大 数据 分 析 平 台 的 支 
撑 下 ， 运 用 云 计 算 技 术 调 度 计算 分 析 资 源 ， 最 终 挖 掘 出 大 数据 背后 的 模式 
或 规律 的 数据 分 析 过 程 。 

数据 分 析 目 的 是 从 和 主题 相关 的 数据 中 提取 尽 可 能 多 的 信息 ， 其 主要 
作用 包括 : 

口 ” 推 测 或 解释 数据 并 确定 如 何 使 用 数据 ; 

口 检查 数据 是 否 合 法 ; 

口 给 决策 制定 合理 建议 ; 

口 诊断 或 推断 错误 原因 ; 

口 ”预测 未 来 将 要 发 生 的 事情 。 








5.1.2 ”数据 分 析 的 类 型 


依据 不 同 的 方法 和 标准 ， 数 据 分 析 可 以 分 成 不 同 的 类 型 。 根 据 数据 分 
析 深 度 ， 可 将 数据 分 析 分 为 3 个 层次 : 描述 性 分 析 (Descriptive Analysis)， 
预测 性 分 析 (Predictive Analysis) 和 规则 性 分 析 (Prescriptive Analysis) 。 

描述 性 分 析 基 于 历史 数据 来 描述 发 生 的 事件 。 例 如 ， 利 用 回归 分 析 从 
数据 集中 发 现 简单 的 趋势 ， 并 借助 可 视 化 技术 来 更 好 地 表示 数据 特征 。 

预测 性 分 析 用 于 预测 未 来 事件 发 生 的 概率 和 演化 趋势 。 例 如 ， 预 测 性 
模型 使 用 对 数 回 归 和 线性 回归 等 统计 技术 发 现 数 据 趋 势 并 预测 未 来 的 输出 


结果 。 
规则 性 分 析 用 于 解决 决策 制定 和 提高 分 析 效 率 。 例 如 ， 利 用 仿真 来 分 
析 复 杂 系 统 以 了 解 系统 行为 并 发 现 问题 ， 并 通过 优化 技术 在 给 定 约束 条 件 
下 给 出 最 优 解 决 方案 。 

在 统计 学 的 领域 当中 ， 数 据 分 析 可 划分 为 描述 性 统计 分 析 、 探 索性 数 
据 分 析 及 验证 性 数据 分 析 3 种 类 型 。 其 中 ， 探 索性 数据 分 析 侧 重 于 从 数据 
当中 发 现 新 的 特征 ， 而 验证 性 数据 分 析 侧重 于 对 已 有 假设 的 证 实 或 者 证 伪 。 
探索 性 数据 分 析 是 为 了 形成 值得 假设 的 检验 而 对 数据 进行 分 析 的 一 种 方 
法 ， 是 对 传统 统计 学 假设 检验 手段 的 补充 。 该 方法 由 著名 的 美国 统计 学 家 
约翰 。 图 基 (John Tukey) 命名 。 

在 人 类 探索 自然 的 过 程 中 ， 通 常 将 数据 分 析 方法 分 为 定性 数据 分 析 和 
定量 数据 分 析 两 大 类 。 

定性 分 析 是 对 研究 对 象 进行 “ 质 ” 的 方面 的 分 析 。 具 体 地 说 是 运用 归 
纳 和 演绎 、 分 析 与 综合 以 及 抽象 与 概括 等 方法 ， 对 获得 的 各 种 材料 进行 思 
维 加 工 ， 从 而 去 粗 取 精 、 去 伪 存 真 、 由 此 及 彼 、 由 表 及 里 ， 达 到 认识 事物 
本 质 、 揭 示 内 在 规律 。 

定性 分 析 主 要 是 解决 研究 对 象 “ 有 没有 ”“ 是 不 是 ”的 问题 。 定 量 分 析 
是 对 观测 对 象 的 数量 特征 、 数 量 关 系 与 数量 变化 的 分 析 。 其 功能 在 于 揭示 
和 描述 观测 对 象 的 内 在 规律 和 发 展 趋势 。 定 量 分 析 是 依据 统计 数据 ， 建 立 
数学 模型 ， 并 用 数学 模型 计算 出 分 析 对 象 的 各 项 指标 及 其 数值 的 一 种 方法 。 

按照 数据 分 析 的 实时 性 ， 一 般 将 数据 分 析 分 为 实时 数据 分 析 和 离线 数 
据 分 析 。 实 时 数据 分 析 也 称 在 线 数 据 分 析 ， 在 线 数据 分 析 能 够 实时 处 理 用 
户 的 请 求 ， 允 许 用 户 随时 更 改 分 析 的 约束 和 限制 条 件 。 在 线 数据 分 析 往 往 
要 求 在 数秒 内 返回 准确 的 数据 分 析 结 果 ， 为 用 户 提供 良好 的 交互 体验 ， 一 
般 应 用 于 金融 、 电 信和 交通 导航 等 领域 。 离 线 数据 分 析 通 过 数据 采集 工具 
将 日 志 数 据 导入 专用 分 析 平 台 进 行 分 析 ， 应 用 于 那些 对 反馈 时 间 要 求 不 严 
格 的 场合 ， 如 精准 营销 、 市 场 分 析 、 工 程 建筑 等 。 

按照 数据 量 的 大 小 ， 可 将 数据 分 析 分 为 内 存 级 数据 分 析 、BI 级 数据 分 
析 和 海量 级 数据 分 析 。 内 存 级 别 是 指数 据 量 不 超过 机 器 内 存 的 最 大 值 ( 通 
常 在 TB 之 下 )， 可 以 将 一 些 热点 数据 或 数据 库 储 存 于 内 存 之 中 ， 从 而 获得 
非常 快速 的 数据 分 析 能 力 ， 内 存 分 析 尤 其 适合 实时 业务 分 析 需 求 。BI 级 别 
指 的 是 那些 对 于 内 存 来 说 过 大 但 又 可 将 其 放 入 专用 BI 数据 库 之 中 进行 分 析 
的 数据 量 。 目 前 主流 的 BI 产品 都 有 支持 TB 级 以 上 的 数据 分 析 方 案 ,如 IBM 
的 cognos，Oracle 的 OBIEE，SAP 的 BO 等 。 海 量 级 别 指 的 是 对 于 内 存 和 
BI 数据 库 已 完全 失效 或 成 本 过 高 的 数据 量 。 基 于 软 硬 件 的 成 本 原因 ， 目 前 
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大 多 数 互 联网 企业 采用 Hadoop 的 HDFS 分 布 式 文件 系统 来 存储 数据 , 并 使 
用 MapReduce 进行 分 析 。 


5.2 ”数据 分 析 方 法 


5.2.1 数据 分 析 方 法 概述 


随 着 互联 网 、 云 计算 和 物 联网 等 迅速 发 展 ， 随 处 可 见 的 无 线 传感器 、 
移动 设备 、RFID 标签 等 每 分 每 秒 都 在 产生 数 以 亿 计 的 数据 。 如 今 需要 处 理 
的 数据 量 越 来 越 大 ， 并 且 数 据 量 仍 在 以 指数 级 增长 ， 同 时 用 户 对 数据 处 理 
的 实时 性 、 有 效 性 、 精 确 性 等 也 提出 了 更 高 要 求 。 海 量 复杂 的 大 数据 带 来 
了 很 多 新 的 技术 性 难题 ， 传 统 的 数据 分 析 处 理 方法 已 经 不 再 适用 。 因 此 ， 
大 数据 分 析 方 法 在 大 数据 领域 显得 尤为 重要 ， 甚 至 决定 了 最 终 数据 信息 是 
否 具有 真正 实用 价值 。 

由 于 大 数据 复杂 多 变 的 特殊 属性 ， 目 前 还 没有 公认 的 大 数据 分 析 方法 
体系 ， 不 同 的 学 者 对 大 数据 分 析 方 法 的 看 法 各 异 。 总 结 起 来 ， 包 括 3 种 体 
系 ， 分 别 是 面向 数据 视角 的 分 析 方 法 、 面 向 流程 视角 的 分 析 方 法 和 面向 信 
息 技术 视角 的 分 析 方 法 。 

面向 数据 视角 的 大 数据 分 析 方法 主要 是 以 大 数据 分 析 处 理 的 对 象 “ 数 
据 ” 为 依据 ， 从 数据 本 身 的 类 型 、 数 据 量 、 数 据 处 理 方式 以 及 数据 能 够 解 
决 的 具体 问题 等 方面 对 大 数据 分 析 方法 进行 分 类 。 如 利用 历史 数据 及 定量 
工具 进行 回溯 性 数据 分 析 来 对 模式 加 以 理解 并 对 未 来 做 出 推论 ， 或 者 利用 
历史 数据 和 仿真 模型 对 即将 发 生 的 事件 进行 预测 性 分 析 。 美 国 国家 研究 委 
员 会 在 2013 年 公布 的 《海量 数据 分 析 前 沿 》 研 究 报 告 中 提出 了 7 种 基本 的 
数据 统计 分 析 方 法 : 

@ 基本 统计 (如 一 般 统 计 及 多 维 数 分 析 等 ); 

@ N 体 问 题 (N-body Problems)( 如 最 邻近 算法 、Kemel 算法 、PCA 
算法 等 ); 

@ 图 论 算法 (Graph-Theoretic Algorithm ); 

图 数据 匹配 (如 隐 马 尔 可 夫 模 型 等 ); 

@@ 线性 代数 计算 (Linear Algebraic Computations); 

@ 优化 算法 (Optimizations); 

@ 功能 整合 (如 贝 叶 斯 推理 模型 、Markov Chain 和 Monte Carlo 方法 等 )。 

面向 流程 视角 的 大 数据 分 析 方 法 主要 关注 大 数据 分 析 的 步骤 和 阶段 。 
一 般 而 言 ， 大 数据 分 析 是 一 个 多 阶段 的 任务 循环 执行 过 程 。 一 些 专 家 学 者 








按照 数据 搜集 、 分 析 到 可 视 化 的 流程 ， 梳 理 了 一 些 适用 于 大 数据 的 关键 技 
术 ， 包 括 神 经 网 络 、 遗 传 算法 、 回 归 分 析 、 聚 类 、 分 类 、 数 据 挖掘 、 关 联 
规则 、 机 器 学 习 、 数 据 融 合 、 自 然 语 言 处 理 、 网 络 分 析 、 情 感 分 析 、 时 间 
序列 分 析 、 空 间 分 析 等 ， 为 大 数据 分 析 提 供 了 丰富 的 技术 手段 和 方法 。 
面向 信息 技术 视角 的 大 数据 分 析 方 法 强调 大 数据 本 身 涉 及 的 新 型 信息 
技术 ， 从 大 数据 的 处 理 架构 、 大 数据 系统 和 大 数据 计算 模式 等 方面 来 探讨 
具体 的 大 数据 分 析 方法 。 

实际 上 ， 现 实 中 往往 综合 使 用 这 3 种 大 数据 分 析 方 法 。 综 合 来 看 ， 大 
数据 分 析 方法 正 逐 步 从 数据 统计 〈Statistic) 转向 数据 挖掘 (Mining)， 并 进 
一 步 提升 到 数据 发 现 〈Discovery) 和 预测 (Prediction ) 。 


5.2.2 ”数据 来 源 


从 20 世纪 90 年 代 后 期 以 来 ， 随 着 信息 处 理 技术 、 计 算 机 技术 和 网 络 
技术 等 高 新 技术 迅速 发 展 ， 人 类 社会 迈 入 了 全 新 的 数字 时 代 。 现 代 信息 网 
络 技术 的 快速 发 展 ， 无 疑 为 数据 的 广泛 传播 和 共享 铺设 了 一 条 宽广 的 快车 
道 。 如 今 ， 与 日 俱 增 的 数据 充斥 着 人 类 世界 的 各 个 层面 ， 世 界 上 每 时 每 刻 
都 有 海量 的 数据 产生 与 传播 。 数 据 作为 第 四 次 工业 革命 的 战略 资源 ， 全 球 
各 国都 在 大 力 发 展 数据 基础 信息 平台 的 建设 ， 用 以 改善 数据 的 采集 、 存 储 、 
传输 及 管理 的 效率 ， 从 而 提升 信息 服务 水 平 。 

大 数据 的 来 源 按照 数据 产生 主体 可 划分 为 三 层 。 

大 数据 来 源 的 最 外 层 是 巨 量 的 各 类 机 器 产生 的 数据 ， 大 约 占 数据 总 数 
的 90%， 包 括 各 类 应 用 服务 器 上 的 结构 化 事务 日 志 数据 ， 布 署 在 全 球 的 各 
种 传感器 收集 的 数据 ， 如 交通 、 公 安 和 环境 等 部 门 布置 的 传感器 收集 到 的 
海量 的 非 结构 化 数据 。 非 结构 化 数据 没有 既定 模式 和 格式 ， 比 较 难 以 管理 
和 利用 ， 但 其 蕴藏 的 应 用 价值 巨大 。 例 如 ， 交 警部 门 可 以 利用 车 载 系统 上 
传 的 车 辆 位 置信 息 ， 判 断 出 当前 路 段 的 通行 情况 ， 便 能 够 更 加 合理 地 安排 
车 辆 通行 ， 缓 解 交通 拥堵 情况 。 

大 数据 来 源 的 次 外 层 是 人 为 产生 的 大 量 数据 。 自 20 世纪 90 年 代 末期 
开始 ，Web 系统 应 用 的 兴起 萌生 了 许多 在 线 社交 网 络 平台 ， 如 搜索 引擎 、 
论坛 、 博 客 、 社 交 网 站 等 ， 这 些 平 台 的 数据 绝 大 多 数 是 在 线 用 户 产 生 的 。 
举例 来 说 ， 搜 索引 擎 Google 每 天 要 处 理 的 数据 已 经 超过 20PB; Twitter 每 
月 会 处 理 超过 3 200 亿 次 的 搜索 ; Facebook 每 天 存储 、 访 问 和 分 析 的 用 户 数 
据 达到 30PB; 淘宝 每 天 产生 的 数据 量 达到 了 50TB; 阿里 巴巴 保存 的 数据 
量 超过 100PB; 百度 在 2014 年 的 数据 总 量 超 过 1 000PB; 腾讯 的 总 数据 量 
压缩 后 也 在 几 百 PB 以 上 , 并 且 保 持 着 10% 的 月 增长 率 。 显然 , 在 社交 网 络 、 
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电 商 和 在 线 游戏 等 领域 已 积累 了 大 量 结构 化 和 非 结 构 化 数据 。 通 过 分 析 这 
些 数据 ， 能 够 总 结 推测 用 户 的 喜好 和 关注 点 ， 从 而 为 企业 挖掘 用 户 需 求 提 
供 科学 依据 。 

大 数据 来 源 的 最 内 层 主要 是 来 自 企 业 的 数据 ， 包 括 电 信 、 人 金融 、 医 疗 、 
交通 、 石 油 和 化 工 等 行业 。 例 如 ， 电 信行 业 运 营 商 拥有 的 总 数据 量 有 几 百 
PB， 这 些 数据 涵盖 了 用 户 的 通话 记录 、 信 息 文本 记录 、 上 网 记录 以 及 定位 
地 理 信息 等 ， 医 疗 行业 每 年 产生 的 数据 量 也 在 数 百 PB 以 上 。 

纷繁 复杂 的 应 用 带 来 了 数据 量 的 爆炸 式 增长 。 资 料 显 示 ，2011 年 全 球 
数据 规模 约 为 1.8ZB， 预 计 在 2020 年 全 球 数据 将 会 达到 40ZB。 特别 是 ， 互 
联网 数据 生产 量 正 以 指数 增长 ， 大 约 每 两 年 就 会 翻 一 番 。 大 数据 不 仅 体现 
在 数据 的 体 量 巨 大 ， 也 体现 在 了 格式 组 成 的 多 样 化 ， 在 如 此 海量 的 数据 当 
中 ， 结 构 化 数据 所 占 比例 仅 为 20% 左 右 ， 由 社交 网 络 、 物 联网 、 电 子 商 务 
等 领域 产生 的 非 结构 化 和 半 结 构 化 数据 占 到 80% 的 比例 。 


5.2.3 ”数据 分 析 活动 步骤 


1. 数据 分 析 


简 而 言 之 ， 数 据 分 析 是 指数 据 收集 、 处 理 并 获取 数据 信息 的 过 程 。 通 
过 数据 分 析 ， 人 们 可 以 从 杂乱 无 章 的 数据 当中 获取 有 用 的 信息 ， 从 而 找 出 
研究 对 象 的 内 在 规律 ， 对 今后 的 工作 提供 指导 性 参考 ， 并 有 利于 人 们 做 出 
科学 准确 的 判断 ， 进 一 步 提 高 生产 率 。 

从 整体 上 看 ， 大 数据 分 析 包 括 5 个 阶段 ， 每 个 阶段 都 有 该 阶段 所 对 应 
的 方法 : 

@ 数据 获取 及 储存 ， 从 各 种 感知 工具 中 获取 的 数据 通常 与 空间 时 空 相 
关 ， 需 要 及 时 分 析 技 术 处 理 数据 并 过 滤 无 用 数据 ; 

@ 数据 信息 抽取 及 无 用 信息 的 清洗 ， 从 异 构 的 数据 源 当中 抽取 有 用 的 
信息 ， 然 后 转化 为 统一 的 结构 化 数据 格式 ; 

@ 数据 整合 及 表示 ， 将 数据 结构 和 语义 关系 转换 为 机 器 能 够 读 取 理解 
的 格式 ; 

@ 数据 模型 的 建立 和 结果 分 析 ， 从 数据 中 挖掘 出 潜在 的 规律 及 信息 知 
识 ， 需 要 相应 的 数据 挖掘 算法 或 知识 发 现 方法 ; 

结果 阐释 ， 运 用 可 视 化 技术 对 结果 进行 展示 ， 方 便 用 户 更 加 清楚 直 

观 地 理解 。 


2. 活动 步骤 
不 难看 出 ， 要 想 通 过 数据 分 析 从 庞杂 的 海量 数据 中 获得 需要 的 信息 ， 
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必须 经 过 必要 的 活动 步骤 ， 有 具体 说 明 如 下 。 

(1) 识别 目标 需求 

首先 必须 明确 数据 分 析 的 目标 需求 ， 从 而 为 数据 的 收集 和 分 析 提 供 清 
晰 的 方向 ， 该 步骤 是 数据 分 析 有 效 性 的 首要 条 件 。 

(2) 采集 数据 

目标 需求 明确 之 后 ， 就 要 运用 合适 的 方法 来 有 效 收集 尽 可 能 多 的 相关 
数据 ， 从 而 为 数据 分 析 过 程 的 顺利 进行 打下 基础 。 常 用 的 数据 采集 方法 包 
括 系 统 日 志 采 集 方法 , 这 是 目前 广泛 使 用 的 一 种 数据 采集 方法 。 例 如，Web 
服务 器 通常 要 在 访问 日 志文 件 中 记录 用 户 的 鼠标 点 击 、 键 盘 输 入 、 访 问 的 
网 页 等 相关 属性 ， 利 用 传感器 采集 数据 ， 传 感 器 类 型 丰富 ， 包 括 声 音 、 震 
动 、 温 度 、 湿 度 、 电 流 、 压 力 、 光 学 、 距 离 等 类 型 ， 基 于 Web 疏 虫 的 数据 
采集 ，Web 疏 虫 是 网 站 应 用 的 主要 数据 采集 方式 。 

(3) 数据 预 处 理 

通过 多 种 方式 采集 上 来 的 数据 通常 是 杂乱 无 章 ， 高 度 兄 余 并 且 有 一 定 
缺失 。 如 果 直 接 对 此 类 数据 进行 分 析 ， 不 仅 会 耗费 大 量 时 间 精 力 ， 而 且 分 
析 得 到 的 结果 也 不 准确 。 为 此 ， 需 要 对 数据 进行 必要 的 预 处 理 。 常 用 的 数 
据 预 处 理 方法 包括 数据 集成 、 数 据 清洗 、 数 据 去 元 余 。 数 据 集成 技术 在 逻 
辑 和 物理 上 把 来 自 不 同 数据 源 的 数据 进行 集中 合并 ， 给 用 户 提 供 一 个 统一 
的 视图 。 数 据 清洗 是 指 在 集成 的 数据 中 发 现 不 完整 、 不 准确 或 不 合理 的 数 
据 ， 然 后 对 这 些 数据 进行 修补 或 删除 来 提高 数据 质量 的 过 程 。 另 外 ， 数 据 
的 格式 、 合 理性 、 完 整 性 及 极限 值 等 的 检查 都 应 在 数据 清洗 过 程 中 完成 。 
数据 清洗 可 以 保证 数据 的 一 致 性 ， 提 高 了 数据 分 析 的 效率 和 准确 性 。 数 据 
元 余 是 指数 据 的 重复 或 过 剩 ， 在 很 多 的 数据 集中 数据 元 余 是 一 种 十 分 常见 
的 问题 。 数 据 匈 余 无 疑 增 加 了 数据 传输 开销 ， 浪 费 存 储 空间 ， 并 降低 了 数 
据 的 一 致 性 和 可 靠 性 。 因 此 ， 许 多 研究 学 者 提出 了 减少 数据 元 余 的 机 制 ， 
如 宛 余 检测 和 数据 融合 技术 。 这 些 方法 能 够 应 用 于 不 同 的 数据 集 和 数据 环 
境 ， 提 升 系统 性 能 ， 不 过 在 一 定 程度 上 也 增加 了 额外 的 计算 负担 ， 因 此 需 

要 综合 考虑 数据 元 余 消 除 带 来 的 好 处 和 增加 的 计算 负担 ， 以 便 找到 一 
适 的 折 中 。 

(4) 数据 挖掘 

数据 挖掘 的 目的 是 在 现 有 数据 基础 之 上 利用 各 类 有 效 的 算法 挖掘 出 数 
据 中 隐 含 的 有 价值 信息 ， 从 而 达到 分 析 推理 和 预测 的 效果 ， 实 现 预定 的 高 
层次 数据 分 析 需 求 。 常 用 的 数据 挖掘 算法 有 用 于 聚 类 的 K-Means 算法 、 用 
于 分 类 的 朴素 贝 叶 斯 网 络 、 用 于 统计 学 习 的 支持 向 量 机 以 及 其 他 一 些 人 工 
智能 算法 ， 如 遗传 算法 、 粒 子 群 算法 、 人 工 神 经 网 络 和 模糊 算法 等 。 目 前 ， 
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大 数据 分 析 的 核心 是 数据 挖掘 ， 各 类 数据 挖掘 算法 能 够 根据 数据 的 类 型 和 
格式 ， 科 学 地 分 析 数 据 自身 的 特点 ， 快 速 地 分 析 和 处 理 数 据 。 常 用 的 数据 
挖掘 方法 将 在 5.3 节 中 详细 介绍 。 


5.2.4 分 析 数 据 


在 完成 对 数据 的 各 类 处 理 之 后 ， 接 下 来 最 重要 的 任务 就 是 根据 既定 的 
目标 需求 对 数据 处 理 结果 进行 分 析 。 目 前 ， 大 数据 的 分 析 主 要 依靠 4 项 技 
术 : 统计 分 析 、 数 据 挖掘 、 机 器 学 习 和 可 视 化 分 析 。 


1. 统计 分 析 


统计 分 析 基 于 统计 理论 ， 属 于 应 用 数学 的 一 个 分 支 。 在 统计 理论 中 ， 
随机 性 和 不 确定 性 由 概率 理论 建 模 。 统 计 分 析 技 术 可 以 分 为 描述 性 统计 和 
推断 性 统计 。 描 述 性 统计 技术 对 数据 集 进行 摘要 Summarization) 或 描述 ， 
而 推断 性 统计 则 能 够 对 过 程 进行 推断 。 更 多 的 多 元 统计 分 析 包括 回归 、 因 
子 分 析 、 聚 类 和 判别 分 析 等 。 数 据 关联 分 析 是 一 种 简单 、 实 用 的 分 析 技 术 
就 是 发 现存 在 于 大 量 数据 集中 的 关联 性 或 相关 性 ， 从 而 描述 了 一 个 事物 中 
的 某 些 属性 同时 出 现 的 规律 和 模式 。 例 如 ，Apriori 算法 是 挖掘 产生 布尔 关 
联 规则 所 需 频繁 项 集 的 基本 算法 ， 也 是 最 著名 的 关联 规则 挖掘 算法 之 一 ， 
使 用 一 种 称 作 逐 层 搜索 的 迭代 方法 。 


2. 数据 挖掘 


数据 挖掘 可 以 认为 是 发 现 大 数据 集中 数据 模式 的 一 种 计算 过 程 。 许 多 
数据 挖掘 算法 已 经 在 机 器 学 习 、 人 工 智能 、 模 式 识 别 、 统 计 和 数据 库 领 域 
得 到 了 应 用 。 例 如 ， 贝 叶 斯 分 类 器 根据 目标 对 象 的 先 验 概率 和 条 件 概率 推 
断 出 它 的 概率 ， 算 法 根据 目标 概率 值 进行 分 类 。 通 过 分 类 算法 ， 可 以 清楚 
地 看 到 目标 对 象 所 从 属 的 类 别 ， 有 助 于 分 析 人 员 正确 对 待 不 同类 型 的 对 象 。 
此 外 ， 其 他 一 些 先进 技术 如 人 工 神经 网 络 、 粒 子 群 算法 和 遗传 算法 也 被 用 
于 不 同 应 用 的 数据 挖掘 。 有 时 候 ， 儿 乎 可 以 认为 很 多 方法 间 的 界线 逐渐 淡 
化 ， 例 如 数据 挖掘 、 机 器 学 习 、 模 式 识 别 、 甚 至 视觉 信息 处 理 、 媒 体 信息 
处 理 等 ,“ 数 据 挖 气 ” 只 是 作为 一 个 通称 。 


3. 机 器 学 习 


机 器 学 习 是 一 门 研究 机 器 获取 新 知识 和 新 技能 ， 并 识别 现 有 知识 的 学 
问 ， 其 理论 主要 是 设计 和 分 析 一 些 让 计算 机 可 以 自动 “学 习 ” 的 算法 。 机 
器 学 习 算法 从 数据 中 自动 分 析 获 得 规律 ， 并 利用 规律 对 未 知 数据 进行 预测 。 
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在 大 数据 时 代 ， 人 们 迫切 希望 在 由 普通 机 器 组 成 的 大 规模 集群 上 实现 高 性 
能 的 以 机 器 学 习 算法 为 核心 的 数据 分 析 ， 为 实际 业务 提供 服务 和 指导 ， 进 
而 实现 数据 的 最 终 变现 。 与 传统 的 在 线 联机 分 析 处 理 OLAP 不 同 ， 对 大 数 
据 的 深度 分 析 主 要 基于 大 规模 的 机 器 学 习 技术 。 因 而 与 传统 的 OLAP 相 比 
较 ， 基 于 机 器 学 习 的 大 数据 分 析 具 有 自己 独特 的 特点 ， 包 括 友 代 性 、 容 错 
性 、 参 数 收敛 的 非 均匀 性 等 。 这 些 特 点 决定 了 理想 的 大 数据 分 析 系统 的 设 
计 的 独特 性 和 挑战 性 。 


4. 可 视 化 分 析 


可 视 化 分 析 与 信息 绘图 学 和 信息 可 视 化 相关 。 数 据 可 视 化 的 目标 是 以 
图 形 方式 清晰 有 效 地 展示 信息 ， 从 而 便于 解释 数据 之 间 的 特征 和 属性 情况 。 
一 般 来 说 ， 图 表 和 地 图 可 以 帮助 人 们 快速 理解 信息 。 当 数据 量 增 大 到 大 数 
据 的 级 别 ， 传 统 的 电子 表格 等 技术 已 无 法 处 理 海量 数据 。 大 数据 的 可 视 化 
已 成 为 一 个 活跃 的 研究 领域 ， 因 为 它 能 够 辅助 算法 设计 和 软件 开发 。 关 于 
可 视 化 的 内 容 详 见 本 书 第 6 章 。 


5.3 ”数据 挖掘 


5.3.1 基本 概念 


我 们 现在 生活 在 一 个 信息 化 的 数据 爆炸 时 代 ， 大 量 信息 在 给 人 们 带 来 
方便 的 同时 也 带 来 了 一 大 堆 问 题 : 

口 信息 过 量 ， 难 以 消化 ; 

口 ”信息 真 假 难以 辨识 ; 

口 信息 安全 难以 保证 ; 

口 ”信息 形式 不 一 致 ， 难 以 统一 处 理 。 

人 们 开始 考虑 :“ 如 何 才能 不 被 信息 淹没 ， 而 是 从 中 及 时 发 现 有 用 的 知 
识 、 提 高 信息 利用 率 ? ” 面 对 这 一 挑战 ， 数 据 挖掘 和 知识 发 现 技术 应 运 而 
生 ， 并 显示 出 强大 的 生命 力 。 一 般 来 说 ， 数 据 挖掘 〈Data Mining) 这 一 概 
念 最 早 是 Fayyad 在 1995 年 的 知识 发 现 会 议 上 提出 来 的 ， 他 认为 数据 挖掘 
是 一 个 自动 或 是 半自动 地 从 大 量 数据 中 发 现 有 效 、 有 意义 、 有 潜在 价值 、 
易于 理解 的 数据 模式 的 复杂 过 程 。 此 定义 的 着 眼 点 在 于 数据 挖掘 的 工程 特 
征 ， 明 确 了 数据 挖掘 是 一 种 用 于 发 现 数据 中 潜在 有 价值 的 知识 模式 的 学 习 
机 制 。 在 此 概念 的 基础 上 ， 许 多 学 者 对 数据 挖掘 给 出 了 不 同 的 理解 和 定义 。 
目前 ， 一 种 较为 全 面 客观 的 定义 是 ， 数 据 挖掘 就 是 从 大 量 的 、 不 完全 的 、 
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有 噪声 的 、 模 糊 的 、 随 机 的 实际 应 用 数据 中 ， 提 取 隐 含 在 其 中 的 、 人 们 事 
先 不 知道 的 、 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 这 个 定义 包括 几 层 含 
义 : 数据 源 必须 是 真实 的 、 大 量 的 、 含 噪声 的 ， 发 现 的 是 用 户 感 兴趣 的 知 
识 ; 发 现 的 知识 要 可 接受 、 可 理解 、 可 运用 ; 并 不 要 求 发现 放 之 四 海 皆 准 
的 知识 ， 仅 支持 特定 的 发 现 问题 。 

从 技术 的 角度 看 ， 数 据 挖掘 无 疑 是 信息 网 络 时 代 的 技术 热点 。 以 电子 
商务 网 站 为 例 ， 用 户 单 击 鼠 标 这 个 细微 的 动作 就 决定 了 这 个 潜在 客户 的 商 
业 动 机 和 交易 行为 。 网 站 服务 商 为 了 解 和 预测 客户 忠实 度 的 变化 ， 可 以 通 
过 跟踪 、 记 录 和 分 析 客 户 的 网 站 历史 购物 信息 和 访问 记录 来 推测 客户 的 购 
物 习惯 和 行为 变化 倾向 ， 进 而 为 客户 推送 优惠 的 商品 信息 ， 力 图 长 时 间 挽 
留 客户 。 然 而 ， 要 做 到 这 一 点 必须 利用 强大 的 数据 挖掘 和 分 析 功 能 让 隐藏 
在 数据 背后 的 有 用 信息 显现 出 来 。 

从 上 述 定义 不 难看 出 ， 数 据 挖掘 以 解决 实际 问题 为 出 发 点 ， 核 心 任务 
是 对 数据 关系 和 特征 进行 探索 。 一 般 而 言 ， 需 要 探索 的 数据 关系 有 两 种 情 
形 ， 一 种 是 有 目标 的 ， 另 一 种 是 没有 目标 的 。 因 此 ， 数 据 挖掘 也 可 以 分 为 
两 大 类 ， 一 类 为 有 指导 的 学 习 或 监督 学 习 (Supervised leaming)， 一 种 为 无 
指导 的 学 习 或 非 监督 学 习 (Unsupervised leaming)。 监 督学 习 是 对 目标 需求 
的 概念 进行 学 习 和 建 模 ， 通 过 探索 数据 和 建立 模型 来 实现 从 观察 变量 到 目 
标 需 求 的 有 效 解释 。 非 监督 学 习 没 有 明确 的 标识 变量 来 表达 目标 概念 ， 主 
要 任务 是 提炼 数据 中 隐藏 的 规则 和 模式 ， 探 索 数据 之 间 的 内 在 联系 和 结构 。 

数据 挖掘 并 不 专属 某 一 单独 学 科 ， 而 是 一 门 多 学 科 交叉 的 技术 ， 涉 及 
统计 学 、 数 据 库 、 机 器 学 习 、 模 式 识别 、 人 工 智能 等 ， 如 图 5-1 所 示 。 数 据 
挖掘 吸收 了 来 自 统计 学 的 抽样 、 估 计 和 假设 检验 ， 来 自 模式 识别 、 机 器 学 
习 和 人 工 智 能 的 搜索 算法 、 学 习 方法 和 建 模 技术 。 数 据 挖掘 技术 同样 需要 
数据 库 系 统 提 供 有 效 的 存储 、 索 引 和 查询 支持 。 此 外 ， 高 性 能 并 行 计算 技 
术 和 分 布 式 计算 技术 在 处 理 大 数据 方面 往往 是 不 可 或 缺 的 。 








人 工 智能 
机 器 学 习 


数据 挖掘 模式 识别 
人 -多 


数据 库 技术 、 并 行 计算 、 分 布 式 计算 


5-1 数据 挖掘 与 其 他 学 科 的 关系 


从 获取 知识 的 过 程 来 看 ， 数 据 挖掘 不 是 一 趴 而 就 完成 的 ， 而 是 一 个 循 
环 和 迭代 的 递 进 过 程 。 先 从 问题 的 描述 开始 ， 到 数据 的 收集 ， 再 进行 数据 的 
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预 处 理 ， 然 后 建立 模型 进行 评估 ， 最 后 才 是 解释 模型 得 出 结论 。 整 个 数据 
挖掘 的 过 程 ， 会 用 到 各 种 不 同 的 技术 来 尽量 获得 更 好 的 结果 。 数 据 挖 掘 的 
具体 流程 如 图 5-2 所 示 。 


陈述 问题 |- 一 


1 
数据 收集 


1 
进行 预 处 理 











1 
挖掘 数据 


1 
解释 模型 得 出 结论 |- 一 


图 5-2 数据 挖掘 的 具体 流程 
5.3.2 ”数据 挖掘 常用 算法 


在 大 数据 时 代 ， 数 据 挖掘 的 重要 目的 就 是 要 从 海量 、 不 完全 的 、 有 噪 
声 的 、 模 糊 的 、 随 机 的 大 型 数据 库 中 发 现 隐 含 在 其 中 有 价值 的 、 潜 在 有 用 
的 信息 和 知识 。 能 和 否 运 用 合适 的 算法 ， 对 大 数据 的 挖掘 分 析 来 说 至 关 重 要 。 
各 种 数据 挖掘 的 算法 基于 不 同 的 数据 类 型 和 格式 能 更 加 科学 地 呈现 出 数据 
本 身 的 特点 ， 能 更 快速 地 处 理 大 数据 。 大 数据 挖掘 常用 的 算法 有 分 类 、 聚 
类 、 回 归 分 析 、 关 联 规则 、 特 征 分 析 、Web 页 挖掘 、 神 经 网 络 等 智能 算法 。 

(1) 分 类 

分 类 就 是 通过 学 习 得 到 一 个 目标 函数 ， 根 据 目标 数据 的 不 同 特点 按照 
分 类 模式 将 其 划分 为 不 同 的 类 别 ， 其 作用 是 通过 分 类 模型 ， 将 目标 数据 映 
射 到 某 个 特定 的 类 别 。 分 类 技术 是 一 种 根据 输入 数据 集 建立 分 类 模型 的 系 
统 方法 ， 非 常 适合 用 于 描述 或 预测 二 元 或 标 称 类 数据 集 。 例 如 ， 阿 里 巴巴 
对 淘宝 用 户 进行 分 类 ， 包 括 客户 的 属性 和 特征 分 类 以 及 客户 的 购买 行为 的 
分 类 ， 这 样 商家 便 可 以 根据 用 户 喜 好 恰当 推广 和 促销 商品 ， 进 而 提高 利润 。 

(2) 聚 类 分 析 

聚 类 分 析 是 把 一 组 数据 按照 差异 性 和 相似 性 分 为 几 个 类 别 ， 使 得 属于 
同一 类 的 数据 之 间 相 似 性 尽 可 能 大 ， 不 同类 之 间 的 相似 性 尽 可 能 小 ， 跨 类 
的 数据 关联 性 尽 可 能 低 。 组 内 数据 的 相似 性 越 大 ， 组 间 数 据 的 差异 性 越 大 ， 
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聚 类 效果 就 越 好 。 聚 类 分 析 常 用 于 结构 分 组 、 客 户 细 分 、 文 本 归 类 和 行为 
跟踪 等 问题 ， 是 数据 挖 据 中 发 展 很 快 并 且 灵 活 多 变 的 一 个 分 支 。 

(3) 回归 分 析 

回归 分 析 是 确定 两 种 或 两 种 以 上 变量 相互 之 间 依赖 性 关系 的 一 种 统计 
分 析 方法 ， 用 以 分 析 数 据 的 内 在 规律 ， 常 用 于 数值 预报 、 系 统 控制 等 问题 。 
回归 分 析 按 照 因 变量 和 自 变量 之 间 的 关系 ， 可 分 为 线性 回归 和 非 线性 回归 
按照 涉及 变量 的 数量 可 以 分 为 一 元 回归 和 多 元 回归 ; 在 线性 回归 中 ， 根 据 
因 变 量 的 数量 ， 可 以 分 为 简单 回归 分 析 和 多 重 回归 分 析 。 回 归 分 析 在 市 场 
营销 方面 有 着 广泛 应 用 ， 常 用 于 寻求 客户 、 预 防 客户 流失 、 销 售 趋势 、 产 
品 生存 周期 等 预测 以 及 有 针对 性 的 促销 活动 。 

(4) 关联 分 析 

关联 分 析 最 主要 的 目的 就 是 找 出 隐藏 在 数据 之 间 的 相互 关系 和 关联 
性 ， 即 可 以 根据 一 个 数据 项 的 出 现 推导 出 其 他 相关 数据 项 的 出 现 。 衡 量 关 
联 规则 有 两 个 基本 度量 : 支持 度 和 可 信和 度 。 支 持 度 定义 为 A 与 B 在 同一 次 
事务 中 出 现 的 可 能 性 ， 由 A 与 B 在 数据 集中 同时 出 现 的 事务 占 总 事务 的 比 
例 估计 ;可 信 度 用 于 度量 规则 当中 后 项 事务 对 前 项 事务 的 依赖 程度 。 关 联 
规则 的 可 信 度 和 支持 度 都 是 0 一 1 的 值 ， 关 联 规则 的 主要 目的 就 是 找到 变量 
值 之 间 的 支持 度 和 可 信 度 都 比较 高 的 规则 。 关 联 规则 挖掘 过 程 包含 两 个 阶 
段 : 首先 从 海量 的 目标 数据 库 中 找 出 所 有 的 高 频 项 目 组 ， 然 后 从 这 些 高 频 
项 目 组 中 产生 关联 规则 。 关 联 分 析 在 电 商 精确 销售 中 已 得 到 广泛 应 用 ， 利 
用 基于 关联 分 析 的 数据 挖掘 技术 可 以 建立 客户 忠诚 度 模 型 ， 了 解 哪些 因素 
影响 了 客户 忠诚 度 ， 并 采取 应 对 措施 。 

(5) 特征 分 析 

特征 分 析 是 指 从 数据 库 中 的 一 组 数据 中 提取 出 关于 这 些 数据 的 特征 
式 ， 这 些 特 征 式 即 为 此 数据 集 的 总 体 特 征 。 如 销售 公司 可 以 通过 对 顾客 流 
失 因素 的 特征 提取 ， 找 出 顾客 流失 的 一 系列 原因 和 主要 特征 ， 然 后 针对 这 
些 特征 进行 针对 性 的 改进 服务 以 有 效 减 少 顾客 流失 量 。 

(6) Web 网 页 挖掘 技术 

Web 网 页 挖掘 技术 是 随 着 互联 网 的 快速 发 展 及 Web 的 普及 兴起 的 。 当 
前 Web 上 的 信息 量 无 比 丰富 ,通过 对 Web 页 上 的 数据 进行 挖掘 ， 抽 取 其 中 
感 兴趣 的 、 有 潜在 价值 的 信息 进行 集中 分 析 ， 对 政治 和 经 济 等 政策 的 制定 
有 着 积极 的 引导 指向 。Web 网 页 挖掘 涉及 Web 技术 、 计 算 机 语言 、 信 息 学 
等 多 个 领域 ， 是 一 个 综合 性 过 程 。 

(7) 人 工 神 经 网 络 

人 工 神经 网 络 是 一 种 模拟 大 脑 神经 突 触 连接 结构 来 进行 信息 处 理 的 数 
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学 模型 ， 具 有 强大 的 自主 学 习 能 力 和 联想 存储 功能 并 具有 高 度 容 错 性 ， 非 
常 适合 处 理 非 线 性 数据 以 及 具有 模糊 性 、 不 完整 性 、 元 余 性 特征 的 数据 。 
目前 ， 主 要 有 3 种 较为 典型 的 神经 网 络 模型 ， 即 反馈 式 神经 网 络 模型 、 前 
馈 式 神经 网 络 模型 、 自 组 织 映 射 模型 。 
口 ”前 馈 式 神经 网 络 一 般 用 于 分 类 预测 或 模式 识别 ， 主 要 代表 为 感知 
机 和 函数 型 网 络 ; 
口 反馈 式 神经 网 络 一 般 用 于 联想 记忆 和 优化 算法 ， 主 要 代表 有 
HopField 的 离散 模型 和 连续 模型 ; 
口 ” 自 组 织 映射 模型 主要 用 于 聚 类 ， 主 要 代表 有 ART 模型 。 虽 然 神经 
网 络 有 多 种 模型 和 算法 ， 但 在 特定 领域 的 数据 挖掘 中 使 用 何 种 模 
型 及 算法 没有 统一 的 规则 ， 需 要 特定 问题 特定 分 析 。 











5.3.3 分 类 


简单 地 说 ， 分 类 就 是 确定 目标 对 象 属于 哪个 预定 的 类 别 。 分 类 是 数据 
分 析 中 常用 的 一 种 方法 ， 应 用 十 分 广泛 。 例 如 在 银行 业务 中 ， 对 于 客户 申 
请 贷款 ， 银 行 数据 分 析 师 需要 根据 此 客户 的 相关 数据 分 析 他 是 属于 “诚信 ?” 
类 还 是 “失信 ”类 ， 以 便 降低 银行 可 能 遭受 损失 的 风险 。 再 如 邮件 系统 可 
以 根据 E-mail 标题 和 内 容 区 分 出 垃圾 邮件 ， 避 免 木马 等 恶意 程序 攻击 用 户 
计算 机 ， 医 学 研究 人 员 可 以 根据 病理 数据 ， 合 理 辩 识 出 病情 状况 ， 以 便 采 
取 合理 的 治疗 手段 。 

分 类 任务 的 输入 数据 是 记录 的 集合 。 每 条 记录 也 称 作 为 实例 或 样 例 ， 
可 以 用 二 元 组 (x，y) 表示 ， 其 中 x 是 属性 的 集合 ， 而 y 是 一 个 特殊 属性 ， 
表示 样 例 的 类 标号 ， 即 样 例 的 分 类 属性 或 目标 属性 。 分 类 就 是 通过 学 习 得 
到 一 个 目标 函数 f， 属 性 集 x 通过 目标 函数 映射 到 预先 定义 的 类 标号 y。 目 
标 函数 也 称 分 类 模型 (Classification Model)。 数据 分 类 过 程 一 般 包含 两 个 阶 
段 ， 一 是 构建 分 类 模型 的 学 习 阶 段 ， 二 是 基于 模型 预测 目标 类 标号 的 分 类 
阶段 。 分 类 模型 一 般 有 两 大 用 途 : 一 是 进行 描述 性 建 模 ， 分 类 模型 可 以 用 
作 解 释 性 工具 来 区 别 目标 数据 中 的 不 同类 别 ， 二 是 进行 预测 性 建 模 ， 即 使 
用 分 类 模型 来 预测 未 知 记录 的 类 标号 。 

分 类 技术 实际 上 是 一 种 根据 输入 数据 集 建立 分 类 模型 的 系统 方法 。 常 
用 的 分 类 技术 包括 决策 树 分 类 法 、 朴 素 贝 叶 斯 分 类 法 、 基 于 规则 的 分 类 法 、 
支持 向 量 机 、 神 经 网 络 等 。 这 些 技术 都 使 用 某 一 种 学 习 算 法 来 确定 分 类 模 
型 ， 然 后 依据 模型 来 拟 合 输入 数据 中 类 标号 和 属性 集 之 间 的 联系 。 学 习 算 
法 得 到 的 模型 不 仅 要 能 很 好 拟 合 输入 数据 ， 还 要 确保 能 够 正确 预测 未 知 样 
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本 的 类 标号 。 建立 分 类 的 方法 一 般 过 程 包括 两 个 步骤 , 如 图 5-3 所 示 : 首先 ， 
利用 目标 数据 取出 一 定数 据 作 为 训练 集 ， 据 此 进行 学 习 算法 的 训练 学 习 来 
建立 分 类 模型 ， 然 后 ， 取 出 部 分 数据 作为 检验 集 ， 用 于 模型 的 检验 。 





5-3 ”建立 分 类 模型 的 一 般 方法 


评估 模型 性 能 的 度量 一 般 采 用 两 种 指标 ， 即 准确 率 和 错误 率 。 

准确 率 是 模型 正确 预测 的 数量 与 预测 总 数 的 比值 ， 体 现 了 模型 的 评估 
准确 性 。 

错误 率 即 为 模型 预测 和 实际 不 符 的 数量 与 预测 总 数 的 比值 。 

影响 模型 性 能 的 因素 有 很 多 ， 如 目标 数据 本 身 不 完整 ， 存 在 噪声 和 宛 
余 等 ， 还 有 可 能 因为 训练 集 数 目 过 少 或 过 多 等 。 分 类 算法 寻求 的 优秀 模型 
是 希望 这 些 模型 应 用 于 检验 集 时 具有 较 高 的 准确 率 ， 等 价 于 具有 相应 较 低 
的 错误 率 。 

决策 树 归 纳 法 是 一 种 常用 且 简 单 的 分 类 方法 ， 是 从 有 类 标号 的 训练 集 
中 学 习 决 策 树 。 决 策 树 的 结构 是 一 种 树 状 结构 ， 如 图 5-4 所 示 。 图 中 顶层 节 
点 为 根 节点 ， 从 根 节点 开始 ， 树 中 的 非 叶 内 部 节点 表示 某 个 用 以 区 分 不 同 
类 别 的 属性 的 测试 ， 每 个 分 枝 代表 该 测试 的 一 个 输出 ， 每 个 叶 节 点 存放 一 
个 类 标号 。 决 策 树 分 类 器 的 构造 不 需要 任何 领域 知识 或 参数 设置 ， 并 且 能 
够 处 理 高 维 数据 ， 学 习 到 的 知识 使 用 树 的 形式 直观 地 表现 出 来 。 

图 5-4 给 出 了 一 棵 区 分 某 个 物种 是 否 为 哺乳 动物 的 决策 树 , 根 节点 使 用 
体温 属性 把 冷血 动物 和 恒温 动物 区 分 开 来 ， 因 为 所 有 的 哺乳 动物 不 会 是 冷 
血 动 物 ， 因 此 右 节 点 的 类 标号 为 非 哺乳 动物 。 兰 椎 动物 的 体温 是 恒温 的 ， 
然后 通过 是 否 胎生 这 个 决策 来 区 分 鸟 类 与 其 他 哺乳 动物 。 决 策 树 一 旦 构造 
完毕 ， 对 检验 集 的 分 类 就 变 得 十 分 简单 。 从 根 节点 开始 ， 根 据 测 试 条 件 分 
类 ， 测 试 结果 用 于 选择 对 应 的 分 支 。 沿 着 该 分 支 到 达 另 一 内 部 节点 ， 使 用 
新 的 测试 条 件 再 到 达 另 一 节点 ， 最 终 到 达 叶 节点 得 出 分 类 结果 。 

另 一 种 常用 的 分 类 方法 为 贝 叶 斯 分 类 方法 ， 这 是 一 种 统计 学 分 类 方法 。 
此 方法 可 以 预测 类 隶属 关系 的 概率 ， 即 预测 出 一 个 给 定 的 元 组 属于 某 一 个 
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特定 类 的 概率 。 贝 叶 斯 分 类 方法 是 基于 贝 叶 斯 定理 提出 的 。 贝 叶 斯 定理 是 
英国 学 者 Thomas Bayes 在 18 世纪 提出 的 。 贝 叶 斯 定理 中 ， 设 站 表示 属性 
集 ,， 了 表示 类 变量 。 如 果 类 变量 和 属性 之 间 的 关系 不 确定 ， 则 可 以 把 对 和 了 
看 作 是 随机 变量 , 用 P(Y| 有 来 表示 二 者 之 间 的 关系 。 这 个 概率 称 作 了 在 条 
件 耻 下 的 后 验 概率 Posterior probability)。 与 之 对 应 ，P() 即 为 了 的 先 验 
概率 (Prior probability)。 同 理 P(X| 了 是 在 条 件 了 下 革 的 后 验 概率 ，P(X) 
是 了 的 先 验 概率 。 贝 叶 斯 定理 提供 了 利用 PC)、P(7) 和 P| 了 有 来 计算 后 
验 概 率 P(7| 有 如 的 方法 。 定 理 公式 如 下 : 
PCIX)= P(XIY)P(OY) 
P(X) 

朴素 贝 叶 斯 (Naive Bayesian) 分 类 法 的 工作 原理 说 明 如 下 : 

(1) 设 D 是 训练 集 及 其 相关 联 的 类 标号 的 集合 。 一 般 情况 下 ， 每 个 训 
练 元 组 用 一 个 n 维 属性 向 量 X={xy， xX，…， 到 } 表 示 ， 描 述 由 nn 个 属性 41， 
和，…，An 对 训练 元 组 的 n 个 测量 。 

(2) 假定 有 m 个 类 Cl，Cz，…，Cnm。 给 定 元 组 忆 分 类 算法 将 预测 并 
属于 具有 最 高 后 验 概 率 的 类 。 也 就 是 说 ， 朴 素 贝 叶 斯 分 类 法 认为 了 属于 类 
CG:， 当 且 仅 当 


CS 








P(C |X)>PC IX) 1<j<m, iz] 


这 样 ， 将 使 P(GIX ) 的 值 最 大 的 类 Ci 称 为 最 大 后 验 假设 。 由 贝 叶 斯 定 
理 式 5.1 可 知 ， 


PC I (C52) 
(3) 由 于 P(X) 对 所 有 的 类 来 说 是 常数 ， 想 使 P(CIX) 最 大 ， 只 需要 
P(XIC)P(O) 最 大 即 可 。 如 果 在 类 的 先 验 概率 未 知 的 情况 下 ， 一 般 假设 这 
些 类 都 是 等 概率 的 ， 即 P(C1)=P(C2)=…=P(Cm)， 据 此 使 PC CD 或 
P(X|C)P(O) 最 大 化 。 在 此 ， 类 的 先 验 概率 P(C)=|Gi, p|/|D|, 其 中 |Ci Dp| 
是 训练 集 D 中 类 的 训练 元 组 数 。 
(4) 数据 集 如 果 有 很 多 属性 , 计算 P(X| CD 的 开销 可 能 会 非常 大 。 因此 ， 
为 了 降低 计算 开销 ， 可 以 假定 类 条 件 是 独立 的 。 给 定 元 组 的 类 标号 ， 假 定 
属性 值 之 间 相 互 独立 ， 即 各 属性 之 间 不 存在 依赖 关系 。 因 此 有 下 式 : 


POXIC)=TIPC |C)= PG | C)PG |C)--PG, |C) (53) 
| 





式 中 的 Pa|C) 、PGw|C) 、…、PGm| CD 可 以 由 训练 元 组 方便 计算 得 到 。 

(5) 为 了 预测 站 的 类 标号 ,对 每 个 类 CG， 依 次 计算 PC|C)P(C)。 访 
分 类 法 预测 元 组 子 的 类 为 G， 当 且 仅 当 

PCC IX)>P(C IX) 1<j<m, iz#j 

即 预测 结果 的 类 标号 就 是 使 PCGK| C) P(C) 最 大 的 类 Cr。 

决策 树 分 类 与 朴素 贝 叶 斯 分 类 是 两 种 常用 的 基本 分 类 方法 。 除 此 之 
外 , 还 有 其 他 很 多 分 类 方法 , 但 没有 一 种 方法 是 适合 任何 场景 的 万 能 钥匙， 
需要 分 析 人 员 根据 数据 特征 合理 选择 分 类 方法 ， 以 使 得 出 准确 有 效 的 分 析 
结果 。 


5.3.4 聚 类 


聚 类 分 析 〈Cluster Analysis) 简称 聚 类 (Clustering)， 是 把 数据 对 象 划 
分 成 子 集 (类 ) 的 过 程 ， 每 个 子 集 称 为 一 个 簇 (Cluster)， 同 一 个 簇 中 的 数 
据 之 间 存 在 最 大 相似 性 ， 不 同 簇 之 间 的 数据 间 存 在 最 大 的 相 异 性 。 珍 类 分 
析 广 泛 应 用 于 各 个 领域 ， 如 Web 搜索 、 图 像 模 式 识 别 、 生 物 学 、 智 能 商务 
和 信息 安全 领域 等 。 
于 聚 类 分 析 根 据 数据 之 间 的 相 异 与 否 把 数据 集 进行 成 秘 划 分 ， 因 此 
在 某 些 应 用 中 聚 类 又 称 作 数据 分 割 。 作 为 统计 学 的 一 个 分 支 ， 聚 类 分 析 的 
研究 主要 集中 在 基于 距离 的 聚 类 分 析 和 基于 密度 的 聚 类 分 析 ， 常 用 的 方法 
包括 及 -均值 (K-means)、K- 中 心 点 (K-medoids) 等 。 与 分 类 方法 不 同 ， 
聚 类 所 要 求 划分 的 类 是 未 知 的。 也 就 是 说 ， 聚 类 分 析 是 通过 观察 学 习 ， 不 
需要 知道 数据 类 标号 ， 因 此 被 称 作 无 监督 学 习 。 

基于 K 均值 的 聚 类 用 质心 定义 原型 ， 其 中 质心 是 一 组 点 的 均值 ， 通 党 
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情况 K 均值 聚 类 用 于 n 维 连续 空间 中 的 对 象 。K 中 心 点 聚 类 方法 使 用 中 心 
点 定义 原型 ， 其 中 中 心 点 是 一 组 点 中 最 有 代表 性 的 点 。K 均值 算法 是 一 种 
相对 简单 的 聚 类 算法 。 首 先 ， 算 法 选择 个 初始 质心 ， 其 中 K 是 用 户 所 期 
望 的 艇 的 个 数 。 给 数据 中 的 每 个 点 指派 一 个 质心 ， 每 个 点 与 所 指派 质心 的 
距离 相 较 其 他 质心 更 近 ， 这 样 指派 到 每 一 个 质心 的 点 集 组 成 一 个 簇 。 然 后 ， 
根据 指派 到 秘 的 点 ， 更 新 每 个 途 的 质心 。 重 复 上 述 指派 欠 代 过 程 ， 直 到 簇 
不 发 生变 化 为 止 。K 均值 算法 的 具体 过 程 描述 如 下 。 

(1) KK- 均值 算法 

输入 : 天， 想 划 分 的 簇 的 个 数 ，D， 包 含 n 个 对 象 的 数据 集 。 

输出 : 天 个 禾 的 集合 。 





步 又 : 
@ 从 目标 集中 选择 天 个 点 作为 初始 质心 ; 
@) Repeat; 


@ 将 每 个 点 指派 到 最 近 的 质心 ， 形 成 玉 个 簇 ; 

@ 更 新 簇 均值 ， 即 重新 得 到 质心 ; 

@ Until 质心 不 再 变化 。 

如 何 将 点 指派 到 最 近 的 质心 ， 需 要 邻近 性 度量 来 量化 所 考虑 的 数据 的 
最 近 距 离 。 一 般 情况 下 ， 欧 式 空 间 中 的 点 使 用 欧 几 里 得 距离 ， 而 对 于 文档 
类 对 象 使 用 余弦 相似 性 。 如 果 使 用 欧 几 里 得 距离 作为 邻近 性 度量 ， 可 以 用 
误差 平方 和 (Sum of Squared Error，SSE) 作为 度量 聚 类 质量 的 目标 函数 。 
SSE 方法 需要 计算 每 个 数据 点 的 误差 ， 即 数据 点 到 最 近 质 心 的 欧 几 里 得 距 
离 ， 然 后 计算 总 的 误差 平方 和 。 假 设 给 定 两 个 不 同 的 天 值 ， 天 均值 算法 产 
生 两 个 不 同 的 秘 集 ， 比 较 而 言 误差 平方 和 较 小 的 那 一 个 天 均值 算法 更 值得 
青 睐 。SSE 的 形式 化 定义 如 下 : 

SSE= Dp Dy dist(c,, x)” (5.4) 


上 式 中 ，dist 是 欧 几 里 得 空间 中 两 个 对 象 之 间 的 标准 欧 几 里 得 距离 。 

基于 密度 的 聚 类 的 基本 原理 是 找 出 被 低 密度 区 域 分 离 的 高 密度 区 域 ， 
常用 的 一 种 简单 有 效 的 基于 密度 的 聚 类 方法 是 DBSCAN。 在 基于 中 心 的 
DBSCAN 方法 中 ， 数 据 集 某 一 点 的 密度 通过 对 该 点 指定 半径 之 内 的 点 数 来 
表示 。 此 方法 简单 直接 ， 但 是 由 于 密度 大 小 直接 与 半径 大 小 相关 ， 如 何 选 
择 合 适 的 半径 是 DBSCAN 需要 解决 的 问题 。 基 于 中 心 的 密度 划分 方法 可 以 
将 点 分 为 :稠密 区 内 部 的 核心 点 、 稠 密 区 域 边缘 上 的 边界 点 和 稀 疏 区 域 中 
的 噪声 或 背景 点 。 

在 给 定 核 心 点 、 边 界 点 和 噪声 点 后 ，DBSCAN 算法 将 任意 两 个 足够 靠 
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近 的 核心 点 将 置 于 同一 个 徐 中 ， 任 何 与 核心 点 足够 靠近 的 边界 点 也 放 在 与 
核心 点 相同 的 簇 中 ， 噪 声 点 将 会 被 丢弃 。DBSCAN 算法 过 程 如 下 。 

(2) DBSCAN， 基 于 密度 的 聚 类 算法 

输入 : D， 包 含 n 个 对 和 象 的 数据 集 r， 半 径 参 数 ，MinPts， 邻 域 密度 


闵 值 。 
输出 :基于 密度 的 簇 集合 。 
步骤 : 
名 将 所 有 点 分 别 标记 为 核心 点 、 边 界 点 或 噪声 点 ; 


@ 删除 噪声 点 ; 

@ 为 距离 在 半径 之 内 的 所 有 核心 点 之 间 赋 予 一 条 边 ; 

@ 每 一 组 连通 的 核心 点 形成 一 个 簇 ; 

@ 将 每 个 边界 点 指派 到 一 个 相关 联 的 核心 点 所 在 的 艇 中 。 

DBSCAN 算法 的 基本 时 间 复 杂 度 是 O(m* 半 径 7 邻 域 中 的 点 数 ), 其 中 
m 是 点 的 数目 。 由 于 DBSCAN 使 用 基于 密度 的 入 的 定义 ， 所 以 它 是 抗 噪声 
的 ， 并 能 够 处 理 任意 形状 和 大 小 的 艇 。 


5.3.5 ”关联 规则 


在 大 型 事务 或 关系 型 数据 集中 , 常常 会 存在 一 些 相互 之 间 有 关联 的 数 
据 项 。 一 个 典型 的 例子 就 是 顾客 的 购物 篮 〈 购 物 车 ) 分 析 。 表 5-1 给 出 了 
商场 购物 的 一 个 数据 集 示例 ， 通 常 称 作 购 物 篮 事务 。 对 此 类 数据 的 分 析 通 
常 叫 作 购 物 篮 分 析 。 通 过 探寻 顾客 放 入 购物 复 中 商品 之 间 的 关联 性 , 分析 
顾客 的 购物 习惯 , 使 得 经 销 商 可 以 利用 这 种 有 价值 的 信息 制定 更 好 的 营销 
策略 。 

表 5-1 购物 复数 据 集 示例 











标 号 项 集 
. {面包 ， 和 牛奶， 香肠 } 
2 {面包 ， 麦 片 ， 鸡 蛋 ， 糖 } 
{ 面 包 ， 牛 奶 ， 啤 酒 ， 香 烟 } 
4 {牛奶 ， 花 生 ， 鸡 蛋 ， 麦 片 } 
5 {面包 ， 牛奶， 鸡蛋 ， 黄 油 } 





从 表 5-1 中 可 以 发 现 购物 篮 中 的 物品 很 可 能 隐 含 有 如 下 关联 规则 : 
{面包 } 一 {牛奶 } 
此 规则 表明 面包 和 和 牛奶 之 间 存 在 很 强 的 联系 ， 买 了 面包 的 客户 通常 情 





况 下 也 会 买 牛 奶 。 通 过 发 现 此 类 规则 ， 经 销 商 便 可 以 合理 放置 货物 位 置 ， 
例如 把 面包 和 和 牛奶 的 位 置 放 得 近 一 些 ， 可 能 有 助 于 这 两 种 商品 的 销量 增长 。 

假设 整个 数据 集 都 是 商店 中 商品 的 集合 ， 把 每 种 商品 都 看 作 一 个 布尔 
变量 ， 用 以 表示 该 商品 是 否 出 现 ， 则 每 个 购物 篮 就 可 以 用 一 个 布尔 向 量 表 
示 。 可 以 通过 分 析 布尔 向 量 ， 得 到 反映 商品 之 间 的 关联 关系 ， 这 些 模式 可 
以 用 关联 规则 的 形式 表示 。 

关联 规则 是 一 种 形 如 X-Y 的 部 涵 表达 式 ， 其 中 义 和 YY 是 两 个 互 不 相 
交 的 项 集 ， 即 XX 站 Y= 名 。 关 联 规则 的 关联 强度 可 以 用 两 个 度量 来 衡量 : 一 
是 支持 度 (Support), 二 是 置信 和 度 (Confidence)。 如 表 5-1 中 的 购物 篮 例子 ， 
假设 有 如 下 关联 规则 : 

{面包 } 一 {牛奶 } [支持 度 =10%; 置信 和 度 =70%] (5.5) 

支持 度 反映 了 关联 规则 的 有 用 性 ， 置 信 度 则 反映 了 规则 的 确定 性 。 在 
购物 篮 的 关联 规则 中 ， 支 持 度 为 5% 意 味 着 分 析 的 所 有 事务 中 的 5% 显 示 面 
包 和 牛奶 同时 被 购买 ， 置 信和 度 60% 意 味 着 购买 面包 的 顾客 中 有 60% 的 顾客 
也 购买 了 牛奶 。 支 持 度 是 一 种 重要 的 度量 ， 因 为 如 果 支 持 度 过 低 的 规则 ， 
很 有 可 能 是 偶然 出 现 的 情况 ， 从 实际 价值 上 看 没有 多 大 意义 。 因 此 ， 支 持 
度 的 一 个 重要 作用 就 是 用 来 删除 那些 没有 意义 的 规则 。 置 信 度 表示 了 通过 
规则 进行 推理 的 可 靠 性 。 对 于 一 个 给 定 的 规则 X-*Y， 署 信 度 值 越 大 表明 立 
出 现在 包含 X 的 事务 中 的 可 能 性 越 大 。 置 信 度 还 可 以 表示 在 给 定 X 的 条 件 
下 YY 的 条 件 概 率 。 

给 定 目标 数据 集合 T， 关 联 规则 发 现 是 指 找 出 支持 度 大 于 等 于 min sup 
并 且 置 信 度 大 于 等 于 min conf 的 所 有 规则 ， 其 中 min sup 是 支持 度 的 阔 值 ， 
min conf 是 置信 度 的 阔 值 .挖掘 关联 规则 的 一 种 简便 方法 就 是 计算 每 个 可 能 
规则 的 支持 度 和 置信 度 。 然 而 ， 实 际 情 况 中 这 种 计算 方式 代价 过 高 ， 因 为 
从 数据 集中 能 提取 出 的 规则 的 数量 可 能 非常 巨大 。 假 设 一 个 包含 m 个 项 的 
数据 集 ， 可 能 提取 的 规则 数量 为 

及 =3 了 一 2 二 1 (5.6) 
即使 对 于 表 5-1 这 样 的 小 数据 集 而 言 , 使 用 这 种 方法 需要 提取 的 规则 也 多 达 
R=3" 一 200+1=57002 条 。 当 min sup=10% min con 伍 70%，90% 以 上 的 
规则 将 会 被 丢弃 ， 造 成 了 计算 资源 的 大 量 浪费 。 

为 了 减少 不 必要 的 计算 开销 ， 通 常 需要 事先 对 规则 进行 一 定 的 剪裁 处 
理 。 提 高 关联 规则 挖掘 算法 性 能 的 第 一 步 是 拆 分 支持 度 和 置信 度 要 求 。 项 
的 集合 称 为 项 集 ， 包 含 天 个 项 的 项 集 称 为 天 项 集 。 例 如 集合 { 面 包 ， 牛 奶 } 
有 两 个 项 是 一 个 2 项 集 。 项 集 的 出 现 频 度 是 包含 项 集 的 事务 数 ， 简 称 为 项 
集 的 频 度 、 支 持 度 计 数 或 计数 。 如 果 一 个 项 集 的 支持 度 大 于 等 于 最 小 预定 























e— 


124 大 数据 导论 一 e 


支持 度 阔 值 ， 则 称 此 项 集 为 频繁 项 集 。 因 此 ， 通 常情 况 下 ， 大 多 数 的 关联 
规则 通常 采用 的 方法 就 是 找 出 频繁 项 集 ， 然 后 从 频繁 项 集中 提取 出 高 置信 
度 的 规则 ， 这 些 规 则 称 作 强 规则 。 然 而 从 大 型 数据 集中 挖掘 频繁 项 集 的 主 
要 挑战 是 , 这 种 挖掘 常常 会 产生 大 量 的 频繁 项 集 , 尤 其 当 最 小 支持 度 min sup 
较 低 时 更 是 如 此 。 主 要 原因 是 如 果 一 个 项 集 是 频繁 的 ， 则 它 的 所 有 子 集 都 
是 频繁 的 。 

关联 规则 中 挖掘 频繁 项 集 的 常用 算法 是 Apriori 算法 。Apriori 算法 是 
Agrawal 和 及 . Srikant 于 1994 年 提出 来 的 , 是 一 种 布尔 关联 规则 挖掘 频繁 项 
集 的 原创 性 算法 ， 利 用 了 频繁 项 集 性 质 的 先 验 知识 。Apriori 算法 使 用 一 种 
逐 层 搜索 的 迭代 方法 ， 其 中 上 项 集 用 于 探索 (Kk+1) 项 集 。 首 先 ， 扫 描 整 个 
数据 库 ， 记 录 每 个 项 的 计数 ， 收 集 满足 最 小 支持 度 的 项 ， 找 出 只 含 一 个 项 
的 所 有 规则 ， 记 为 LI。 利用 频繁 1 项 集 找 出 频繁 2 项 集 集合 王 ， 逐 次 迭代 
类 推 直到 不 能 再 找到 频繁 上 项 集 为 止 。 找 出 每 个 天 需要 对 数据 库 进行 一 次 
完整 的 扫描 ， 此 举 无 疑 十 分 浪费 资源 。 为 了 提高 效率 ， 可 以 利用 所 谓 的 先 
验 性 质 对 搜索 空间 进行 压缩 。 先 验 性 质 的 含义 是 频繁 项 集 的 所 有 非 空子 集 
一 定 是 频繁 的 。 

根据 定义 ， 如 果 项 集 了 不 满足 最 小 支持 度 阔 值 min sup， 则 项 集 了 是 不 
频繁 的 ， 即 PD<min sup。 如 果 把 不 在 项 集 了 中 的 项 4 添加 到 项 集 了 7 中 ， 构 
成 的 新 项 集 O= 4U7 也 不 可 能 比 了 更 频繁 出 现 。 因 此 ， 新 项 集 O 也 是 不 频 
繁 项 集 。 

Apriori 算法 利用 了 先 验 性 质 ， 主 要 有 两 个 步骤 : 连接 步 和 前 枝 步 。 

(1) 连接 步 

为 了 找 出 第 大 层 的 项 集 Le， 通 过 利用 第 (Kk-1) 层 项 集 Ze 与 自身 连接 
产生 候选 大 项 集 的 集合 ， 候 选项 集 的 集合 记 为 Cx。 

(2) 剪 枝 步 

计算 Ck 中 每 个 候选 的 计数 ， 然 后 挑选 出 计数 值 不 小 于 最 小 支持 度 阐 值 
的 所 有 候选 从 而 确定 Lx。 利用 先 验 性 质 ， 可 以 对 Ck 进行 删 减 。 因 为 任何 非 
频繁 (二 -1) 项 集 都 是 频繁 玉 项 集 的 子 集 , 所 以 ,如果 一 个 候选 上 项 集 的 (1) 
项 子 集 不 在 Le 中 ， 则 该 候选 也 不 可 能 是 频繁 的 ， 从 而 可 以 从 Gx 中 删除 。 








5.3.6 ”大 数据 挖掘 工具 


今 是 一 个 信息 化 数字 化 的 时 代 ， 每 天 来 自 商 业 、 医 学 、 生 物 科 学 、 
智能 商务 、 社 交 媒 体 等 各 行 各 业 的 数据 达到 数 兆 兆 字 节 (TeraByte，TB) 
甚至 数 千 兆 兆 字 节 (PetaByte，PB)， 如 此 巨 量 的 数据 充斥 在 计算 机 网 络 、 
万 维 网 (WWW) 和 各 种 数据 存储 设备 中 。 同 时 ， 这 些 数据 组 成 结构 复杂 ， 


不 仅 有 结构 化 数据 ， 还 有 大 量 的 非 结 构 化 和 半 结 构 化 数据 ， 在 如 此 复杂 和 
庞大 的 数据 集 面前 ， 传 统 的 数据 挖掘 分 析 工 具 已 经 不 能 胜任 大 数据 的 挖 握 
分 析 。 针 对 大 数据 庞大 的 规模 以 及 复杂 的 结构 ， 目 前 业界 已 开发 了 众多 的 
大 数据 挖掘 分 析 工 具 ， 下 面 简要 说 明 几 种 常用 的 大 数据 挖掘 工具 。 





1. Hadoop 


Hadoop 是 一 种 能 够 对 大 数据 进行 并 行 分 布 式 处 理 的 计算 框架 ， 以 一 种 
可 靠 、 可 伸缩 、 高 效 的 方式 对 海量 数据 进行 处 理 。 用 户 可 以 在 不 了 解 分 布 
式 计 算 底层 细节 的 情况 下 开发 分 布 式 程序 ， 充 分 利用 集群 的 优势 进行 高 速 
的 运算 和 存储 。Hadoop 实现 了 一 个 分 布 式 文件 系统 (Hadoop Distributed File 
System，HDFS)。HDFS 具有 高 容错 性 的 特点 ， 并 且 设计 用 来 部 署 在 低廉 硬 
件 上 ; 而 且 它 提供 高 吞吐 量 来 访问 应 用 程序 的 数据 ， 适 合 那些 有 着 超大 数 
据 集 (Large Data Set) 的 应 用 程序 。HDFS 能 够 以 流 的 形式 对 文件 系统 中 的 
数据 进行 访问 。 Hadoop 的 核心 框架 是 HDFS 和 MapReduce，HDFS 为 海量 数 
据 提供 存储 空间 ， 而 MapReduce 为 海量 数据 提供 了 分 布 式 计算 环境 。 

由 于 Hadoop 会 维护 多 个 工作 数据 副本 , 用 以 确保 能 够 对 失败 节点 重新 
分 布 处 理 ， 因 此 Hadoop 允许 计算 和 存储 元 素 存在 失败 的 情况 ， 是 一 种 高 可 
靠 的 处 理 框架 。Hadoop 把 数据 分 配给 它 能 够 使 用 的 计算 机 集 簇 来 完成 计算 
任务 ， 并 且 这 些 集 秘 还 可 以 扩展 到 更 多 的 节点 中 ， 是 一 种 可 扩展 的 处 理 框 
架 。Hadoop 得 以 在 大 数据 处 理应 用 中 广泛 应 用 得 益 于 其 自身 在 数据 提取 、 
转换 和 加 载 (ETL) 方面 上 的 天 然 优势 。Hadoop 的 分 布 式 架构 ， 将 大 数据 
处 理 引擎 尽 可 能 地 靠近 存储 ， 对 如 ETL 这 样 的 批 处 理 操作 相对 合适 。Hadoop 
的 MapReduce 功能 实现 了 将 单个 任务 打 碎 ， 并 将 碎片 任务 (Map) 发 送 到 
多 个 节点 上 ， 之 后 再 以 单个 数据 集 的 形式 加 载 (Reduce) 到 数据 仓库 里 。 





2. Mahout 


Apache Mahout 是 ASF (Apache Software Foundation ) 旗下 的 开源 项 目 ， 
提供 了 许多 经 典 的 机 器 学 习 算 法 和 数据 挖掘 方法 的 实现 ， 如 分 类 、 聚 类 、 
频繁 子 集 挖 据 、 推 荐 引擎 等 ， 旨 在 帮助 开发 人 员 更 方便 快捷 地 创建 智能 应 
用 程序 。 目 前 Mahout 已 发 行 了 3 个 公开 版 本 ， 使 用 Apache Mahout 库 ， 能 
够 让 Mahout 更 有 效 地 扩展 到 云 中 。 

Mahout 的 主要 数据 目标 集 是 大 规模 数据 ， 因 此 Mahout 能 够 建立 运行 
在 Apache Hadoop 平台 上 的 可 伸缩 的 机 器 学 习 算 法 ， 这 些 算法 通过 
Mapreduce 模式 实现 , 但 并 不 局 限于 Hadoop 平台 。Mahout 主要 包含 频繁 挖 
掘 模式 ， 用 来 挖掘 数据 集中 频繁 出 现 的 项 集 。Mahonut 目前 已 实现 的 3 个 具 
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体 的 机 器 学 习 任务 包括 协作 筛选 、 集 群 和 分 类 。 协 作 筛 选 (CF) 是 Amazon 
等 公司 极为 推崇 的 一 项 技巧 ， 它 使 用 评分 、 单 击 和 购买 等 用 户 信息 为 其 他 
站 点 用 户 提供 推荐 产品 。CF 通常 用 于 推荐 各 种 消费 品 ， 比 如 书籍 、 音 乐 和 
电影 ， 主 要 用 于 帮助 多 个 操作 人 员 通 过 协作 来 缩小 数据 范围 。 对 于 大 型 数 
据 集 来 说 ， 无 论 它们 是 文本 还 是 数值 ， 一 般 都 可 以 将 类 似 的 项 目 自动 组 织 
或 集聚 到 一 起 。 举 例 来 说 ;对 于 全 国 某 天 的 所 有 的 报纸 新 闻 ， 您 可 能 希望 
将 所 有 主题 相同 的 文章 自动 归 类 到 一 起 ; 然后 可 以 选择 专注 于 特定 的 主题 ， 
而 不 需要 阅读 大 量 无 关内 容 。 再 举 一 个 例子 ， 某 台 机 器 上 的 传感器 会 持续 
输出 内 容 ， 您 可 能 希望 对 输出 进行 分 类 ， 以 分 辨 正常 的 和 有 问题 的 操作 ， 
即将 正常 操作 和 有 异常 操作 归 类 到 不 同 的 集群 中 。 与 CF 类 似 , 集群 计算 集合 
中 各 项 目 之 间 的 相似 度 ， 但 它 的 任务 只 是 对 相似 的 项 目 进行 分 组 。 














3. Spark MLlib 


MLlib 是 构建 在 Apache Spark 上 的 一 个 可 扩展 的 分 布 式 机 器 学 习 库 ， 
充分 利用 了 Spark 的 内 存 计 算 和 适合 迭代 型 计算 的 优势 ， 将 性 能 大 幅度 提 
升 。 同 时 由 于 Spark 算 子 丰富 的 表现 力 ， 让 大 规模 机 器 学 习 的 算法 开发 不 再 
复杂 。Spark MLlib 已 纳入 Spark 的 应 用 程序 接口 当中 ， 可 以 使 用 Java、R 
语言 以 及 Python 进行 操作 ，Hadoop 数据 源 例如 HDFS、HBase 或 者 本 地 文 
件 可 以 轻易 地 匹配 到 Hadoop 工作 流 当 中 。 

MLlib 是 Apache Spark 的 组 成 部 分 ,发 展 非常 迅速 ， 并 随 着 Spark 的 发 
布 更 新 换代 。 由 于 Spark 的 迭代 运算 优势 , 确保 了 MLlib 拥有 高 速 的 运算 速 
度 。 因 此 ， 相 对 于 Mapreduce，MLlib 可 以 产生 更 好 的 计算 结果 ， 运 行 速度 
要 快 上 几 十 倍 。MLlib 安装 简便 ， 如 果 已 经 有 Hadoop 平台 则 不 需要 进行 预 
安装 就 可 以 运行 Sparkk MLlib。MLlib 是 一 种 三 层 架 构 : 上层 的 实用 程序 包 
括 测试 数据 的 生成 、 外 部 数据 的 读 入 等 功能 ; 中间 的 算法 库 包 括 广义 线性 
模型 、 推 荐 系统 、 聚 类 、 决 策 树 等 算法 ;底层 主要 是 一 些 Spark 的 运行 库 、 
矩阵 库 和 向 量 库 。 分 类 算法 属于 监督 式 学 习 方 法 ， 使 用 类 标签 已 知 的 样本 
建立 一 个 分 类 模型 ， 应 用 模型 对 类 标签 未 知 的 数据 进行 分 类 。MLlib 支持 的 
分 类 算法 主要 有 朴素 贝 叶 斯 、 罗 辑 回归 、 决 策 树 和 支持 向 量 机 。 回 归 算 法 
的 每 个 个 体 都 有 一 个 与 之 相关 联 的 实数 标签 属于 监督 式 学 习 的 一 种 ， 并 且 
希望 在 给 出 用 于 表示 这 些 实体 的 数值 特征 后 ， 所 预测 的 标签 值 尽 可 能 接近 
真实 值 。MLlib 支持 的 回归 算法 主要 有 Lasso、 线 性 回归 、 决 策 树 和 岭 回归 。 
聚 类 算法 属于 非 监督 式 学 习 ，MLlib 目前 支持 广泛 使 用 的 Kmeans 算法 。 此 
外 , MLlib 也 支持 基于 模型 的 协同 过 滤 , 其 中 用 户 和 商品 通过 一 小 组 隐语 义 
因子 进行 表达 ， 并 且 这 些 因子 也 用 于 预测 缺失 元 素 。 
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4. Storm 


Storm 是 一 个 开源 的 、 分 布 式 的 具有 高 容错 性 的 实时 计算 系统 。Storm 
能 够 十 分 可 靠 地 处 理 庞大 的 数据 流 ， 能 够 用 来 处 理 Hadoop 的 批量 数据 。 
Storm 应 用 领域 广泛 ,包括 在 线 机 器 学 习 、 实 时 分 析 、 分 布 式 RPC( 远 过 程 
调用 )、 持 续 计 算 、ETL 等 。Storm 的 处 理 速度 非常 迅速 ， 每 个 节点 每 秒 可 
以 处 理 上 百 万 个 数据 元 组 。Storm 支持 多 种 语言 编程 ,具有 容错 性 高 、 可 扩 
展 、 易 于 设置 和 操作 的 特点 。 

借助 Storm 为 工具 ， 开 发 人 员 可 以 快速 搭建 一 套 健壮 、 易 用 的 实时 流 
处 理 框架 ， 配 合 MapReduce 计算 平台 或 NoSQL 产品 ， 就 可 以 低 成 本 开发 
出 很 多 高 效 的 实时 数据 分 析 和 挖掘 产品 ， 比 如 一 淘 网 站 的 多 个 数据 挖掘 工 
具 就 是 构建 在 实时 流 处 理 平台 Stomm 上 的 。 








5. Apache Drill 


为 了 帮助 企业 用 户 寻找 更 为 有 效 的 数据 查询 和 处 理 方法 ，Apache 软件 
基金 会 发 起 了 一 项 名 为 Drill 的 开源 项 目 。Apache Drill 在 基于 SQL 的 数据 
分 析 和 商业 智能 (BI) 上 引入 了 JSON (JavaScript Object Notation，JS 对 象 
标记 ) 文件 模型 ， 使 得 用 户 能 查询 固定 架构 、 演 化 架构 以 及 各 种 格式 和 数据 
存储 中 的 模式 (olumnar-free) 无 关 数据 。 该 体系 架构 中 关系 查询 引擎 和 数据 
库 的 构建 是 有 先决 条 件 的 ， 即 假设 所 有 数据 都 有 一 个 简单 的 静态 架构 。 

Apache Drill 是 唯一 一 个 支持 复杂 和 无 模式 数据 的 柱状 执行 引擎 
(Columnar Execution Engine)， 也 是 唯一 一 个 能 在 查询 执行 期 间 进行 数据 驱 
动 查询 和 重新 编译 的 执行 引擎 )。 这 些 特 性 使 得 Apache Drill 在 JSON 文件 
模式 下 能 实现 记录 断 点 性 能 (Record-breaking performance)。 依 托 Drill 开 
源 项 目 ,组 织 机 构 将 有 望 建立 Drill 所 属 的 API 接 口 和 灵活 强大 的 体系 架构 ， 
从 而 帮助 支持 广泛 的 数据 源 、 数 据 格 式 和 查询 语言 。 


6. RapidMiner 


RapidMiner 是 德国 多 特 蒙 德 工业 大 学 于 2007 年 推出 的 世界 领先 的 数据 
挖掘 工具 ， 能 够 完成 的 数据 挖掘 任务 涉及 范围 广泛 ， 并 且 能 够 简化 数据 控 
掘 过 程 的 设计 和 评价 。2014 年 底 ，RapidMiner 更 名 为 RapidMiner Radoop， 
Radoop 是 RapidMiner Studio 的 大 数据 分 析 扩 展 , 能 连接 多 个 Hadoop 集群 。 
Radoop 可 以 通过 拖 搜 自 带 的 算 子 执行 Hadoop 技术 特定 的 操作 ， 避 免 了 
Hadoop 集群 技术 的 复杂 性 ， 简 化 和 加 速 了 在 Hadoop 上 的 分 析 。 

RapidMiner 可 免费 提供 数据 挖掘 相关 技术 库 ， 可 以 用 简单 的 脚本 语言 
编写 大 规模 的 进程 。RapidMiner 拥有 丰富 的 数据 挖掘 分 析 算 法 ， 常 用 于 解 
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决 各 种 关键 的 商业 问题 ， 如 客户 忠诚 度 、 客 户 细 分 及 终身 价值 、 营 销 响应 
率 、 预 测 性 维修 、 质 量 管理 、 资 产 维护 、 资 源 规划 、 情 感 分 析 和 社交 媒体 
监测 等 典型 商业 案例 。RapidMiner 拥有 丰富 的 扩展 程序 ， 如 网 络 挖掘 、 文 
本 处 理 、R 语言 、Weka 扩展 等 ， 能 够 生成 和 导出 数据 、 报 告 并 且 能 把 结果 
可 视 化 ， 并 设计 了 交互 式 界面 供 技术 性 用 户 和 非 技术 性 用 户 使 用 。 


7. Pentaho BI 


不 同 于 传统 的 BI 产品 ，Pentaho BI 是 一 个 以 流程 为 核心 的 ， 面 向 解决 
方案 (Solution) 而 非 工具 组 件 的 框架 , 其 目的 在 于 将 一 系列 企业 级 BI 产品 、 
API、 开 源 软 件 等 组 件 加 以 集成 ， 方 便 商务 智能 应 用 的 开发 。Pentaho BI 包 
括 多 个 工具 软件 和 一 个 Web Server 平台 ， 支 持 分 析 、 报 表 、 图 表 、 数 据 挖 
据 和 数据 集成 等 功能 ， 允 许 商业 分 析 人 员 或 研发 人 员 分 析 模 型 ， 以 及 创建 
报表 、 商 业 规则 和 BI 流程 。 

Pentaho BI 是 以 流程 为 中 心 的 ， 其 中 枢 控制 器 是 一 个 工作 流 引擎 。 工 作 
流 引 擎 使 用 流程 定义 来 规范 BI 平台 上 执行 的 商业 智能 流程 。 流 程 可 以 很 容 
易 地 定制 ， 也 可 以 添加 新 的 流程 。BI 平台 包含 组 件 和 报表 ， 用 以 分 析 这 些 
流程 的 性 能 。 目 前 Pentaho 软件 主要 以 Pentaho SDK 的 形式 提供 ，Pentaho 
SDK 包含 5 部 分 : Pentaho 平台 、Pentaho 数据 库 、 可 独立 运行 的 Pentaho 
平台 、Pentaho 解决 方案 和 一 个 预 配置 的 Pentaho 网 络 服务 器 。 其 中 Pentaho 
平台 是 Pentaho BI 的 核心 部 分 , 囊括 了 Pentaho 平台 源 代码 的 主体 ; Pentaho 
数据 库 为 Pentaho 平台 的 正常 运行 提供 数据 服务 ， 包 括 配 置信 息 、Solution 
相关 的 信息 等 , 通过 配置 也 可 以 用 其 他 数据 库 取 代 Pentaho 数据 库 ; 可 独立 
运行 的 Pentaho 平台 是 Pentaho BI 独立 运行 模式 的 示例 ， 演 示 了 如 何 使 
Pentaho 平台 在 没有 应 用 服务 器 支持 的 情况 下 独立 运行 ，Pentaho 解决 方案 
是 一 个 Eclipse 工程 ， 用 来 演示 如 何 为 Pentaho 平台 开发 相关 的 商业 智能 解 
决 方案 ; Pentaho 网 络 服 务 器 提供 了 系统 的 J2EE 服务 、Portal、 工 作 流 、 规 
则 引擎 、 图 表 、 数 据 集成 、 分 析 和 建 模 功能 。 





5.3.7 ”数据 挖掘 算法 应 用 


本 节 简 要 介绍 上 述 数据 挖掘 算法 的 实际 应 用 实例 ， 包 括 决 策 树 算法 、 
贝 叶 斯 网 络 、 聚 类 算法 和 关联 规则 。 


1. 决策 树 分 类 算法 


首先 以 动物 分 类 为 类 说 明 决 策 树 算法 的 应 用 ， 假 设 自然 界 只 有 两 大 物 
种 ， 哺 乳 动物 和 非 哺乳 动物 ， 并 已 知晓 它们 的 属性 特征 。 现 在 考虑 当 动 物 


学 家 发 现 一 个 新 物种 时 ， 如 何 应 用 决策 树 方法 把 它 划分 为 哺乳 动物 或 非 哺 
乳 动物 。 动 物 学 家 需要 采集 的 动物 属性 集 包 括 体温 和 生育 方式 ， 体 温 有 两 
个 特征 值 : 恒温 和 冷血 ;生育 方式 包括 胎生 和 卵 生 。 根 据 经 验 知识 人 们 知 
道 哺乳 动物 肯定 是 恒温 胎生 ， 非 哺乳 动物 有 冷血 动物 ， 还 有 恒温 卵 生动 物 。 
据 此 可 以 构建 如 图 5-4 所 示 的 决策 树 。 决 策 树 一 旦 构建 完毕 , 对 需要 检验 分 
类 的 目标 进行 分 类 就 十 分 方便 。 只 需 从 树 的 根 节 点 开始 ， 将 测试 条 件 用 于 
检验 记录 ， 根 据 测试 结果 选择 合适 的 分 支 ， 一 直到 最 后 输出 检验 结果 。 假 
设 现在 动物 学 家 发 现 一 个 起 名 为 太阳 鸟 的 新 物种 ， 需 要 对 它 进行 分 类 ， 相 
关 属性 如 表 5-2 所 示 。 


表 5-2 新 物种 的 属性 集 





动物 学 家 可 以 将 表 5-2 中 数据 带 入 决策 树 依次 进行 判断 检验 , 最 终 得 出 
该 物种 的 分 类 结果 ， 具 体 过 程 如 图 5-5 所 示 。 







非 哺乳 动物 






法 





哺乳 动物 非 哺乳 动物 
5-5 ”动物 分 类 检验 过 程 


可 以 看 到 ， 通 过 建立 决策 树 来 进行 分 类 十 分 方便 ， 在 根 节点 处 通过 体 
温 将 冷血 和 恒温 动物 区 分 开 ， 所 有 的 冷血 动物 都 是 非 哺 乳 动物 ， 以 此 用 类 
标号 为 非 哺乳 动物 来 作为 右 节 点 。 然 而 只 是 恒温 还 无 法 确定 动物 的 类 别 ， 
所 以 再 增加 一 个 是 否 胎 生来 进行 判断 , 即 可 得 出 准确 的 结论 。 把 表 5-2 中 属 
性 集 带 入 决策 树 可 以 得 到 最 终 该 新 物种 归 类 为 非 哺乳 动物 。 
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2. 贝 叶 斯 网 络 


下 面 再 举 一 个 利用 贝 叶 斯 网 络 进行 病情 分 析 诊 断 为 医生 提供 辅助 诊疗 


手段 的 应 用 实例 。 医 生 可 以 根据 病例 数据 建立 合适 的 
如 对 心脏 病 或 心口 疼痛 患者 的 病例 数据 进行 建 模 。 造 


贝 叶 斯 网 络 分 类 模型 ， 
成 心脏 病 HD) 的 因 





素 可 能 有 不 健康 的 饮食 (D) 和 缺少 锻炼 (E)， 心 脏 病 带 来 的 相应 症状 包括 
高 血压 BP》 和 胸痛 (CP) 等 。 与 此 类 似 ， 心 口 痛 (Hb) 可 能 因为 饮食 不 
健康 ， 同 时 也 会 造成 胸痛 。 为 此 ， 医 务 研究 人 员 可 以 根据 历史 病理 数据 建 


立 贝 叶 斯 网 络 模型 ， 如 图 5-6 所 示 ， 辅 助 准 确诊 断 患 者 的 病症 。 
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5-6 诊断 心脏 病 和 心口 疼痛 的 贝 叶 斯 网 络 模型 


假设 诊所 来 了 一 个 心脏 不 适 的 病人 ， 医 生 在 没有 





i 任何 先 验 信息 的 情况 


下 ,可 以 利用 如 图 5-6 所 示 的 贝 叶 斯 网 络 模 型 对 病人 进行 诊断 。 医生 可 以 通 
过 计算 先 验 概率 P(HD=Yes) 和 P(HD=No) 来 判断 该 病人 是 否 患 有 心脏 病 的 


可 能 性 。 在 此 ， 用 ae {Yes，No} 来 表示 病人 锻炼 与 否 


，P se {健康 ， 不 健康 } 


表示 饮食 是 否 健康 。 
P(HD= Yes)= YY P(AHD= Yes)|E=a,D=P)P(E=0,D=p) 
«Bp 


= FP(HD=Yes)|E=a,D=p)P(E=a)P(D=p) 
«Bp 


=0.25x0.7x0.25+0.45x0.7x0.75+0.55x0.3x0.25+0.75x 
0.3x0.75=0.49 


P(HD= No)=1- P(HD= Yes)=0.51 


因此 ， 此 人 没有 患 心脏 病 的 可 能 性 稍 大 一 些 。 
如 果 该 病人 确诊 有 高 血压 ， 可 以 据 此 更 准确 判断 病人 是 否 患 有 心脏 病 ， 





即 通过 计算 后 验 概率 PUBD=Yes|BP- 高 ) 和 PLD=NolBP- 高 ) 来 进行 判断 。 
首先 ， 计 算 P(BP= 高 ) 的 概率 如 下 : 


P(BP= 高 )= 叉 P(BP= 高 |ED=w)P(HD=o) 
=0.85x0.49+0.2x0.51=0.518 5 


P(HD = YeslBP= 高 )= (SP = 高 IHD=Yes)P(HD= Yes) 
P(BP = 高 ) 


_0.85x0.49 _ 0.8033 


0.5185 


此 病人 不 患 心脏 病 的 后 验 概率 为 
PLD=NolBP= 高 )=1- PUBD=Yes|BP= 高 )=1-0.8033=0.1967 


不 难看 出 ， 医 生 可 以 得 出 诊断 此 人 患 心脏 病 的 可 能 性 比较 大 。 
3. K- 均 值 聚 类 方法 
-均值 聚 类 常用 来 对 异常 对 象 进行 检测 ， 如 垃圾 信息 、 坎 诈 性 行为 等 。 





KK- 均值 算法 通过 对 数据 集 的 聚 类 分 析 ， 找 出 数据 集合 中 远离 集聚 簇 的 那些 
稀 朴 数据 ， 再 通过 相应 的 处 理 方法 作 进一步 处 理 ， 能 够 有 效 清洗 不 干净 的 
数据 ， 吻 除 恶意 用 户 。 


假设 用 于 噪声 点 检测 的 目标 数据 集 如 图 5-7 所 示 。 若 想 从 目标 数据 集中 


剔除 掉 噪 声 点 ， 可 以 采用 民 - 均 值 聚 类 算法 。 首 先 ， 选 择 合适 数量 的 质心 点 ， 


使 月 





均值 作为 质心 ， 然 后 将 每 个 点 指派 到 邻近 的 质心 ， 形 成 相应 个 数 的 聚 


集 艇 ; 接 下 来 重新 选择 新 的 质心 进行 欠 代 计算 ， 直 到 各 个 质心 不 再 发 生变 


化 ， 


或 者 达到 迭代 次 数 为 止 。 
-均值 聚 类 算法 中 ,数据 点 到 质心 的 距离 可 用 欧 几 里 得 距离 计算 得 到 ， 





计算 公式 如 下 : 


d(X,Y)=y( 一 区 十 (一 攻关 十 十 (0 —») 
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其 中 ,mi 为 第 i 个 簇 的 成 员 个 数 。 对 图 5-7 中 的 目标 数据 集 进 行 聚 类 计算 后 
得 到 的 分 簇 结构 如 图 5-8 所 示 。 
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5-8 目标 数据 聚 类 分 徐 结 构 


经 过 聚 类 算法 处 理 后 ， 可 以 找 出 原始 数据 集中 的 噪声 点 ， 有 助 于 对 数 
据 进 行 后 续 处 理 ， 如 删除 噪声 点 以 增加 数据 的 纯洁 可 靠 性 。 


4. 关联 规则 


关联 规则 常用 于 发 现 事物 之 间 的 相关 关系 ， 通 过 一 种 属性 的 出 现 来 
推断 很 可 能 出 现 的 其 他 属性 ， 能 够 起 到 一 种 预测 作用 。 通 过 发 现 这 种 关 
联 关系 能 够 指导 用 户 合理 安排 事物 处 理 规则 ， 如 用 于 指导 超市 货物 的 放 
置 。 例 如 ， 通 过 收集 某 超市 的 销售 数据 ， 可 以 发 现 销售 事物 数据 如 表 5-3 
所 示 。 
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表 5-3 某 超市 购物 的 数据 集 示 例 

















Tid 项 目 集 

1 {面包 ， 牛 奶 ， 鸡 蛋 ， 麦 片 } 
4 { 面 包 ， 牛 奶 ， 鸡 蛋 } 

3 {鸡蛋 ， 麦片 } 

4 {面包 牛奶， 花生 } 


设 此 数据 集中 ， 最 小 支持 度 为 50%， 最 小 置信 度 为 70%， 和 希望 推断 出 
事务 数据 集中 的 频繁 关联 规则 。 在 此 可 以 使 用 前 面 提 到 的 Apriori 算法 ， 具 
体 计算 步 又 如 下 。 

Q@ 根据 事务 数据 集 生成 候选 频繁 1- 项 集 C={{ 面 包 }，{ 牛 奶 }，{ 鸡 
和 蛋 }，{ 麦 片 }，{ 人 花生}}。 

@ 计算 候选 频繁 1- 项 集 Ci 中 各 个 项 目的 计数 ， 从 事务 数据 集中 可 以 
得 到 各 项 目的 计数 分 别 为 3、3、3、2、1。 事 务 项 中 的 项 目 集 总 共 为 4 项 ， 
因此 可 以 计算 得 到 1- 项 集 各 项 目的 支持 度 分 别 为 75%、75%、75%、50% 和 
25%。 去 除 小 于 最 小 支持 度 的 项 目 ， 可 以 得 到 频繁 1- 项 集 ={{ 面 包 }，{ 牛 
奶 }，{ 鸡 蛋 }，{ 麦 片 }}。 

@ 根据 频繁 1- 项 集 L1xLi 相交 生成 候选 频繁 2- 项 集 : Cz={{ 面 包 ， 牛 
奶 }，{ 面 包 ， 鸡蛋}，{ 面 包 ， 麦片 }，{ 牛 奶 ， 鸡 蛋 }，{ 牛 奶 ， 麦片}，{ 鸡 蛋 ， 
麦片 }}。 

@ 同 理 ， 计 算 Cs 各 个 项 目 在 事务 数据 集中 的 计数 ， 可 以 得 到 每 个 项 
目的 计数 分 别 为 3、2、1、2、1、2， 事 务 项 目 集 总 数 为 4， 可 以 得 到 每 个 
项 的 支持 度 为 75%、50%、25%、50%、25%、50%。 删 除 小 于 最 小 支持 度 
的 项 目 可 以 得 到 频繁 2- 项 集 : Ly={{ 面 包 ， 牛 奶 }，{ 面 包 ， 鸡蛋}，{ 牛 奶 ， 
鸡蛋 }，{ 鸡 蛋 ， 麦 片 }}。 

@ 根据 频繁 2- 项 集 LsXLIL 相 交 生 成 候选 频繁 3- 项 集 Cs={{ 面 包 , 牛奶， 
鸡蛋 }，{ 面 包 ， 牛奶， 麦片 }，{ 面 包 ， 鸡蛋 , 麦片 }，{ 牛 奶 ， 鸡 蛋 ， 麦片 }} 。 
其 中 ，{ 面 包 ， 牛奶， 麦片 } 中 的 一 个 子 集 {面包 ， 麦 片 } 不 在 频繁 2- 项 集中 ， 
因此 可 以 利用 先 验 性 质 剔除 { 面 包 , 牛奶 , 麦片 } 这 一 项 , 同 理应 去 除 项 目 { 面 
包 , 鸡蛋 , 麦片 } 和 {牛奶 , 鸡蛋 , 麦片 }, 因此 得 到 候选 频繁 3- 项 集 为 Cs={ 面 
包 ， 和 牛奶， 鸡蛋 }。 

@ 计算 C3 各 项 目的 支持 度 ，C3 项 的 计数 为 2， 数 据 集 项 目 总 数 4， 因 
此 支持 度 为 50%， 可 以 得 出 频繁 3- 项 集 Ls={ 面 包 ， 和 牛奶， 鸡蛋 }。 

@ LI=LUL UL-={{ 面 包 }，{ 牛 奶 }，{ 鸡 蛋 }，{ 麦 片 }，{ 花 生 }，{ 面 
包 ， 牛 奶 }，{ 面 包 ， 鸡 蛋 }，{ 牛 奶 ， 鸡 蛋 }，{ 鸡 蛋 ， 麦 片 }，{ 面 包 ， 和 牛奶 ， 
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鸡蛋 }}。 

考虑 长 度 大 于 1 的 项 目 集 ， 如 {面包 牛奶， 鸡蛋 }， 计 算 所 有 真子 
集 { 面 包 }，{ 牛 奶 }，{ 鸡 蛋 }，{ 面 包 ， 牛 奶 }，{ 面 包 ， 鸡蛋}，{ 牛 奶 ， 鸡 蛋 } 
可 能 的 关联 规则 {面包} 一 {牛奶 ， 鸡 蛋 }，{ 牛 奶 } 一 {面包 ， 鸡 蛋 }，{ 鸡 
重 } 一 {面包 牛奶}，{ 面 包 ， 牛 奶 } 一 {鸡蛋 }，{ 面 包 ， 鸡蛋 } 一 {牛奶 }，{ 牛 
奶 ， 鸡蛋} 一 {面包 } 的 置信 和 度 ， 其 值 分 别 为 67%、67%、67%、67%、100%、 
100%， 因 为 最 小 置信 度 为 70%， 舍 弃置 信 度 小 于 70% 的 规则 项 ， 最 终 可 得 
{面包 , 鸡蛋 } 一 {牛奶 } 和 {牛奶 , 鸡蛋} 一 {面包 } 为 频繁 关联 规则 ,意味 着 买 
面包 和 鸡蛋 的 顾客 一 定 会 买 牛奶 ， 买 牛奶 和 鸡蛋 的 顾客 也 一 定 会 买 面包 。 


5.4 上 机 与 项 目 实 训 


(1) 给 定 特征 数值 离散 的 1 组 数据 实例 ， 设 计 并 实现 决策 树 算法 ， 对 
数据 实例 建立 决策 树 ， 观 察 决策 树 是 否 正确 ， 数 据 样本 如 表 5-4 所 示 。 


表 5-4 数据 样本 

Tid Humidity Windy Play 
1 Sunny High False No 
2 Sunny High Trme No 
3 Overcast High False Yes 
4 High False Yes 
EE Normal False Yes 
6 Normal True No 
和 Overcast Normal True Yes 
8 Sunny i High False No 
9 Sunny Normal False Yes 
10 Rainy 1 Normal False Yes 











编写 决策 树 程序 ， 建 立 决策 树 ， 输 入 实例 ， 输 出 预测 类 型 。 

(2) 根据 贝 叶 斯 公式 ， 给 出 在 类 条 件 概率 密度 为 正 态 分 布 时 有 具体 的 判 
别 函数 表达 式 ， 用 此 判别 函数 设计 分 类 器 。 数 据 随 机 生成 ， 比 如 生成 两 类 
样本 《如 鲈鱼 和 链 鱼 )， 每 个 样本 有 两 个 特征 〈 如 长 度 和 亮度 )， 每 类 有 若 
干 个 (比如 20 个) 样本 点 ， 假 设 每 类 样本 点 服从 二 维 正 态 分 布 ， 随 机 生成 
具体 数据 ， 然 后 估计 每 类 的 均值 与 协 方差 ， 在 两 类 协 方差 相同 的 情况 下 求 
出 分 类 边界 。 先 验 概率 自己 给 定 ， 比 如 都 为 0.5。 如 果 可 能 ， 画 出 在 两 类 协 
方差 不 相同 的 情况 下 的 分 类 边界 。 画 出 图 形 。 





(3) 随机 生成 二 维 坐标 点 ， 对 点 进行 聚 类 ， 进 行 大 2 聚 类 ， 大 3 聚 类 ， 
多 次 厂 4 聚 类 ， 分 析 比 较 实验 结果 ， 随 机 生成 3 个 点 集 ， 点 到 中 心 点 距离 
服从 高 斯 分 布 ， 相 关 数 据 如 下 : 

随机 生成 测试 点 集 ， 分 别 聚 成 2、3、4 类 ， 观 察 实验 结果 。 多 次 4 聚 
类 ， 观 察 实验 结果 ， 如 表 5-5 所 示 。 


表 5-5 聚 类 实验 结果 





标 半 径 
2 
2 2 
EE 区 





(4) 使 用 一 种 你 熟悉 的 程序 设计 语言 ， 如 C++ 或 Java， 实 现 Apriori 算 
法 ， 至 少 在 两 种 不 同 的 数据 集 上 比较 算法 的 性 能 。 

在 Apriori 算法 中 ， 寻 找 频繁 项 集 的 基本 思想 是 : 

Q@ 简单 统计 所 有 含 一 个 元 素 项 目 集 出 现 的 频率 ， 找 出 不 小 于 最 小 支持 
度 的 项 目 集 ， 即 频繁 项 集 ; 

@ 从 第 二 步 开 始 , 循环 处 理 直 到 再 没有 最 大 项 目 集 生成 。 循环 过 程 是 : 
第 Ek 步 中 ， 根 据 第 所 1 步 生 成 的 频繁 (fk-1) 项 集 产生 候选 项 集 。 根 据 候 
选项 集 , 算出 候选 大 项 集 支持 度 , 并 与 最 小 支持 度 比较 , 找到 频繁 上 项 集 。 


实验 5-1 认识 大 数据 分 析 工具 

上 实验 原理 

本 节 内 容 , 主 要 向 读者 简单 介绍 使 用 Mahout 软件 来 实现 K-means 程序 。 
Apache Mahout 是 AFS ( Apache Software Foundation ) 开发 的 一 个 新 新 的 开 
源 项 目 ， 主 要 目的 是 为 了 创建 一 些 可 伸缩 的 机 器 学 习 算法 ， 供 研发 人 员 在 
Apache 的 许可 下 免费 使 用 。 在 Mahout 中 ， 包 含 了 分 类 、 聚 类 、 集 群 和 频 
繁 子 项 挖 握 等 实现 。 另外， 用 户 可 以 通过 Apache Hadoop 库 将 Mahout 有 效 
地 扩展 到 云 中 。 

Mahout 在 开源 领域 的 发 展 时 间 还 比较 短暂 ,但 是 Mahout 目前 已 经 拥 
有 了 大 量 的 功能 实现 ， 尤 其 是 针对 聚 类 和 CF 方面 。Mahout 主要 拥有 如 下 
特性 。 

@ Taste CF。Taste 是 一 个 针对 CF 的 开源 项 目 ， 由 Sean Owen 在 
SourceForge 上 发 起 的 。 

@ 支持 针对 Map-Reduce 的 聚 类 算法 的 实现 ,例如 KK-means、 模 糊 
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K-means、 Canopy、Mean-shift 和 Dirichlet。 

@@ 分 布 式 贝 叶 斯 网 络 和 互补 贝 叶 斯 网 络 的 分 类 实现 。 

@ 拥有 专门 针对 进化 编程 的 分 布 式 适用 性 功能 。 

@ 拥有 Matrix 和 矢量 库 。 

Pp 实验 内 容 

K-means 算法 是 一 种 聚 类 算法 ,主要 功能 是 用 来 把 目标 数据 分 成 几 个 不 
同 的 和 化， 使 得 徐 内 元 素 彼 此 具有 最 大 相似 ， 不 同 簇 间 的 元 素 彼 此 具有 最 大 
相 异 性 。 算 法 实现 原理 比较 简单 ， 容 易 理 解 。 具 体 过 程 如 图 5-9 所 示 。 








5-9 K-means 实现 过 程 


如 图 5-9 所 示 ， 图 中 有 A、B、C、D、E5 个 点 ， 假 设 天 值 为 图 5-9 (b) 
中 灰色 点 所 示 ， 意 味 着 把 目标 数据 分 成 两 个 集群 。 具 体 实现 过 程 如 下 : 

@ 在 目标 范围 内 随机 取 玉 个 分 铬 点 ( 图 中 K=2 ); 

@) 求 图 中 所 有 个 点 到 天 个 分 签 点 的 距离 , 若 Pi 离 分 徐 点 Si 距离 最 小 ， 
则 Pi 属于 Si 的 类 。 从 上 图 可 以 看 到 A、B、C 属于 1 号 分 答 点 ，D、E 属于 
2 号 分 铸 点 ; 

@ 移动 分 钱 点 到 属于 它 的 类 中 心 ; 


图 重复 执行 步骤 轩 、G@) 到 所 有 分 徐 点 不 在 改变 位 置 为 止 。 

K-means 算法 实现 简单 , 执行 速度 快 , 对 大 数据 集 处 理 有 较 高 的 效率 而 
且 算 法 可 伸缩 ， 时 间 复 杂 度 为 O (NKt)， 其 中 N 为 数据 集 个 数 ，K 为 禾 数 
目 ，t 为 算法 迭代 次 数 。K-means 非常 适合 用 于 大 数据 挖 握 ， 但 它 也 有 固有 
的 不 足 之 处 ， 例 如 天 的 取 值 具有 随机 性 ， 非 常 难以 在 事先 具体 给 出 ， 并 且 
初始 聚 类 的 中 心 选择 对 最 后 的 聚 类 结果 也 有 较 大 影响 。 

PP 实验 指导 

(1) 建立 HDFS 目录 

在 client 机 上 操作 ， 首 先 在 HDFS 上 建立 文件 目录 。 


[root@client hadoop]#bin/hadoop fs -mkdir -p /user/root/testdata 
(2 ) 准备 实验 数据 
将 root/data/33/ 文 件 夹 下 的 Synthetic_control.data 文件 上 传 到 HDFS 上 面 
上 个 步骤 新 建 的 目录 下 。 


[root@client hadoop]#bin/hadoop/fs-put synthetic_control.data/user/root/ 
testdata 


(3 ) 添加 临时 的 JAVA_HOME 环境 变量 
[root@client hadoop] #export JAVA_HOME=/usrlocalidk1.7.0_79 
(4) 提交 Mahout 的 K-means 程序 


[root@client hadoop]#bin/hadoop 
jar/usr/cstor/mahout/mahout-examples-0.9-job.jar\>org.apache.mahout.clus 
tering. syntheticcontrol.kmeans.Job 


(5 ) 查看 程序 结果 
[root@client hadoop]#bin/hadoop fs -ls /user/root/output。 


5.5 习题 


1. 数据 挖掘 的 常用 算法 有 哪 几 类 ? 

2. 数据 挖掘 方法 中 分 类 的 含义 ? 分 类 与 聚 类 方法 有 哪些 不 同 之 处 ? 

3. 根据 数据 挖掘 的 应 用 场景 ， 谈 谈 数据 挖掘 的 主要 应 用 领域 。 

4. 简 述 决策 树 分 类 的 主要 步 又。 简略 介绍 贝 叶 斯 网 络 的 构建 过 程 ， 以 
及 如 何 应 用 先 验 概率 求 得 后 验 概率 的 步骤 。 

5. -均值 聚 类 算法 和 天- 中 心 点 聚 类 算法 都 能 进行 有 效 的 聚 类 分 析 。 概 























实例 。 

6. 计算 决策 树 在 最 坏 情况 下 的 计算 复杂 度 是 很 有 意义 的 。 给 定数 据 集 
D， 属 性 数 n 和 训练 元 组 数 |DI， 根 据 D 入 n 来 分 析 计 算 复杂 度 。 

7. 当 一 个 数据 对 象 可 以 同时 属于 多 个 类 时 ， 很 难 评估 分 类 的 准确 率 ， 
在 此 种 情况 之 下 ， 使 用 何 种 标准 在 相同 数据 上 建立 不 同 的 分 类 器 ? 

8. 假如 银行 想 开发 一 个 分 类 器 ， 预 防 信 用 卡 交 易 中 的 坎 诈 。 如 果 银 行 有 
大 量 非 欺 诈 数据 实例 和 很 少 的 欺诈 数据 实例 ， 考 虑 如 何 构造 高 质量 分 类 器 。 

9. 根据 表 5-6 所 示 的 数据 集 进行 以 下 操作 。 





表 5-6 
1 0 0 0 区 
2 0 0 1 Y 
3 0 1 1 a 
4 0 1 1 下 
5 0 0 . Xx 
6 1 0 1 下 
条 1 0 1 la 
8 | 1 a 
9 1 0 1 xX 
10 肌 0 1 天 





(1) 计算 条 件 概率 P(4IX), P(BK), P(CIX), P(4IY), P(BIY), 
PCCI7)， 

(2) 根据 〈1) 中 的 条 件 概 率 ， 使 用 朴素 贝 叶 斯 方法 预测 样本 〈4-0， 
B=1，C=0) 的 类 标号 ; 

(3) 比较 P(4=1), P(B=1) 和 P(4=1,，B=1), 陈述 4, B 之 间 的 关系 ; 

(4) 比较 P(4=1]，B=1| 类 =X) 与 P(4=1| 类 =X) 和 P(B=1| 类 =X)， 给 定 
类 成 变量 4、B 条 件 独立 吗 ? 

10. 某 医院 对 本 院 医生 进行 服务 态度 的 评估 ， 根 据 以 往 的 评估 显示 ， 
70% 的 医生 服务 态度 为 良好 ，30% 的 医生 服务 态度 一 般 。 在 此 次 评估 中 ， 以 
前 评 为 良好 的 医生 中 ， 有 80% 的 仍然 为 良好 ; 而 在 以 前 评 为 一 般 的 医生 ， 
有 30% 的 人 达到 了 良好 。 现 在 有 一 名 医生 的 评估 结果 是 良好 ， 请 问 他 在 以 
前 评估 中 是 良好 的 概率 是 多 少 ? 

11. 假设 数据 挖掘 的 任务 是 将 如 下 的 8 个 点 (用 (x，y) 代表 位 置 ) 聚 


es 一 第 5 章 大 数据 分 析 


类 为 3 个 簇 : 41 (2, 10), 42 (2, 5), 43 (8, 4), Bl (5, 8), B2 (7, 5), 
B3 (6，4)，C1 (1，2)，C2(4，9)。 如 果 距 离 函 数 为 欧 氏 距离 ， 假 设 初 
始 选择 41、B1 和 C1 分 别 为 每 个 徐 的 质心 ， 采 用 KK- 均 值 算法 : 

(1) 执行 第 一 轮 后 的 3 个 簇 中 心 ; 

(2) 计算 最 后 的 3 个 簇 。 

12. 给 出 两 个 点 集 , 每 个 点 集 包含 100 个 落 在 单位 正方 形 中 的 点 。 其 中 ， 
一 个 点 集中 的 点 在 空间 中 均匀 分 布 ， 另 一 个 点 集 有 单位 正方 形 上 的 均匀 分 
布 产生 。 

(1) 这 两 个 点 集 之 间 有 差别 吗 ? 

(2) 如 果 有 ， 若 将 两 个 数据 点 分 成 10 个 类 ， 哪 个 点 集 通常 具有 较 小 
SSE? 

(3) DBSCAN 在 均匀 数据 集 上 表现 如 何 ? 在 另 一 个 点 集中 又 是 如 何 ? 

13. 聚 类 已 经 被 认为 是 一 种 具有 广泛 应 用 的 、 重 要 的 数据 挖掘 任务 。 对 
如 下 每 种 情况 给 出 一 个 应 用 实例 : 

(1) 把 聚 类 作为 主要 的 数据 挖掘 功能 应 用 ; 

(2) 把 聚 类 作为 预 处 理工 具 ， 为 其 他 数据 挖掘 任务 作 数据 准备 的 应 用 。 

14. Apriori 算法 使 用 自己 支持 度 性 质 的 先 验 知识 。 

(1) 证 明 频 繁 项 集 的 所 有 非 空子 集 一 定 也 是 频繁 的 ; 

(2) 证 明 项 集 $ 的 任意 非 空子 集 8 的 支持 度 至 少 与 8 的 支持 度 一 样 大 ; 

(3) 给 定 频繁 项 集 L 和 工 的 子 集 8S， 证 明 规则 8 一 L (5') 的 置信 度 不 
可 能 大 于 SL (5S) 的 置信 度 ， 其 中 8 是 $ 的 子 集 ; 

(4) Apriori 算法 的 一 种 变形 将 事务 数据 库 D 中 的 事务 划分 成 n 个 不 重 
县 的 分 区 。 证 明 在 D 中 频繁 的 项 集 至 少 在 D 的 一 个 分 区 中 是 频繁 的 。 
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大 数据 可 视 化 


随 着 互联 网 、 物 联网 、 云 计算 等 信息 技术 的 迅 狐 发 展 ， 我 们 的 世界 已 
经 迈 入 大 数据 (Big Data) 时 代 。 遍 布 世界 各 地 的 各 种 移动 智能 终端 、 传 感 
器 、 电 子 商 务 网 站 、 社 交 网 络 等 ， 每 时 每 刻 都 在 生成 类 型 各 异 的 数据 ， 催 
生 了 超越 以 往 任何 年 代 的 海量 数据 。 如 何 从 这 些 海量 数据 中 快速 获取 自己 
想 要 的 信息 ， 并 以 一 种 直观 、 形 象 的 方式 展现 出 来 ? 这 就 是 大 数据 可 视 化 
要 解决 的 核心 问题 。 数 据 可 视 化 ， 是 一 门 关 于 数据 视觉 表现 形式 的 科学 技 
术 研 究 ， 是 一 个 处 于 不 断 演变 之 中 的 概念 ， 其 边界 在 不 断 地 扩大 。 它 主要 
指 利用 图 形 图 像 处 理 、 计 算 机 视觉 及 用 户 界面 ， 通 过 表达 、 建 模 以 及 对 立 
体 、 表 面 、 属 性 及 动画 的 显示 ， 对 数据 加 以 可 视 化 解释 的 一 种 高 级 的 技术 
方法 。 与 立体 建 模 之 类 的 特殊 技术 方法 相 比 ， 数 据 可 视 化 所 涵盖 的 技术 方 


法 要 广泛 得 多 。 本 章 将 重点 对 大 数据 可 视 化 的 基础 知识 、 基 本 概念 及 大 数 
据 可 视 化 的 常用 工具 进行 详细 讲解 。 


6.1 数据 可 视 化 基础 


6.1.1 数据 可 视 化 的 基本 特征 


大 数据 时 代 已 经 来 临 。 大 数据 被 认为 是 当今 信息 时 代 的 新 “石油 ” 数 
据 中 列 藏 着 巨大 的 价值 ， 如 果 善 于 利用 数据 可 视 化 分 析 ， 将 给 很 多 领域 带 
来 变革 性 的 发 展 。 据 相关 研究 表明 ， 人 类 从 外 界 获取 的 信息 中 有 80% 来 自 


于 视觉 ， 可 视 化 是 人 们 有 效 利用 数据 的 主要 途径 。 数 据 可 视 化 顺应 大 数据 
时 代 的 到 来 而 兴起 ， 是 数据 加 工 和 处 理 的 基本 方法 之 一 。 数 据 可 视 化 主要 
是 通过 计算 机 图 形 图 像 等 技术 来 更 为 直观 地 表达 数据 ， 展 现 数据 的 基本 特 
征 和 隐 含 规律 ， 辅 助人 们 认识 和 理解 数据 ， 进 而 支持 从 数据 中 获得 需要 的 
信息 和 知识 ， 为 发 现 数据 的 隐 含 规律 提供 技术 手段 。 当 大 数据 以 直观 的 可 
视 化 的 图 形 形 式 展示 在 分 析 者 面前 时 ， 分 析 者 往往 能 够 一 眼 洞 悉数 据 背 后 
隐藏 的 信息 并 转化 知识 以 及 智慧 。 数 据 可 视 化 使 得 数据 更 加 友好 、 易 懂 ， 
提高 了 数据 资产 的 利用 效率 ， 更 好 地 支持 人 们 对 数据 认 知 、 数 据 表达 、 人 
机 交互 和 决策 支持 等 方面 的 应 用 ， 在 建筑 、 医 学 、 地 学 、 力 学 、 教 育 等 领 
域 发 挥 着 重要 作用 。 

大 数据 的 可 视 化 既 有 一 般 数 据 可 视 化 的 基本 特征 ， 也 有 其 本 身 特性 带 
来 的 新 要 求 ， 其 特征 主要 表现 在 以 下 4 个 方面 ， 如 图 6-1 所 示 。 


于 下 


人 ee 人 
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图 6-1 可 视 化 基本 特征 




















1. 易 懂 性 

将 数据 进行 可 视 化 分 析 ， 更 加 容易 被 人 们 理解 和 接受 ， 更 加 容易 与 人 
们 的 经 验 知识 产生 关联 ， 使 得 碎片 化 的 数据 转换 为 具有 特定 结构 的 知识 ， 
从 而 为 决策 支持 提供 帮助 。 

2. 必然 性 

当今 大 数据 所 产生 的 数据 量 已 经 远 远 超出 了 人 们 直接 阅读 和 操作 数据 
的 能 力 ， 必 然 要 求人 们 对 数据 进行 归纳 总 结 ， 对 数据 的 结构 和 形式 进行 转 
化 处 理 。 
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3. 片面 性 


数据 可 视 化 往往 只 是 从 特定 视角 或 者 需求 认识 数据 ， 从 而 得 到 符合 特 
定 目 的 的 可 视 化 模式 ， 所 以 ， 只 能 反映 数据 规律 的 一 个 方面 。 数 据 可 视 化 
的 片面 性 特征 要 求 可 视 化 模式 不 能 替代 数据 本 身 ， 只 能 作为 数据 表达 的 一 
种 特定 形式 。 


4. 专业 性 


数据 可 视 化 与 专业 知识 紧密 相连 ， 其 形式 需求 也 是 多 种 多 样 ， 如 网 络 
文本 、 电 商 交 易 、 社 交 信息 、 卫 星 影像 等 。 专 业 化 特征 是 人 们 从 可 视 化 模 
型 中 提取 专业 知识 的 环节 ， 它 是 数据 可 视 化 应 用 的 最 后 流程 。 


6.1.2 ”数据 可 视 化 的 作用 


数据 可 视 化 主要 包括 数据 表达 、 数 据 操 作 和 数据 分 析 3 个 方面 ， 它 是 
以 可 视 化 技术 支持 计算 机 辅助 数据 认识 的 3 个 基本 阶段 。 

1. 数据 表达 

数据 表达 是 通过 计算 机 图 形 图 像 技术 来 更 加 友好 地 展示 数据 信息 ， 方 
便 人 们 阅读 、 理 解 和 运用 数据 。 常 见 的 形式 如 文本 、 图 表 、 图 像 、 二 维 图 
形 、 三 维 模型 、 网 络 图 、 树 结构 、 符 号 和 电子 地 图 等 。 


2. 数据 操作 


数据 操作 是 以 计算 机 提供 的 界面 、 接 口 、 协 议 等 条 件 为 基础 完成 人 与 
数据 的 交互 需求 ， 数 据 操作 需要 友好 的 人 机 交互 技术 、 标 准 化 的 接口 和 协 
议 支持 来 完成 对 多 数据 集合 或 者 分 布 式 的 操作 。 以 可 视 化 为 基础 的 人 机 交 
互 技术 快速 发 展 ， 包 括 自然 交互 、 可 触摸 、 自 适应 界面 和 情景 感知 等 在 内 
的 新 技术 极 大 地 丰富 了 数据 操作 的 方式 。 


3. 数据 分 析 


数据 分 析 是 通过 数据 计算 获得 多 维 、 多 源 、 异 构 和 海量 数据 所 隐 含 信 
息 的 核心 手段 ， 它 是 数据 存储 、 数 据 转换 、 数 据 计 算 和 数据 可 视 化 的 综合 
应 用 。 可 视 化 作为 数据 分 析 的 最 终 环 节 ， 直 接 影响 着 人 们 对 数据 的 认识 和 
应 用 。 友 好 、 易 懂 的 可 视 化 成 果 可 以 帮助 人 们 进行 信息 推理 和 分 析 ， 方 便 
人 们 对 相关 数据 进行 协同 分 析 ， 也 有 助 于 信息 和 知识 的 传播 。 

数据 可 视 化 可 以 有 效 地 表达 数据 的 各 类 特征 ， 帮 助人 们 推理 和 分 析 数 





据 背后 的 客观 规律 ， 进 而 获得 相关 知识 ， 提 高 人 们 认识 数据 的 能 力 和 利用 
数据 的 水 平 。 


6.1.3 ”数据 可 视 化 流程 


数据 可 视 化 是 对 数据 的 综合 运用 ， 其 操作 包括 数据 获取 、 数 据 处 理 、 
可 视 化 模式 和 可 视 化 应 用 4 个 步骤 ， 如 图 6-2 所 示 。 


1. 数据 获取 
主动 式 被 动 式 











质量 分 析 。 预 处 理 计算 


3. 可 视 化 模式 


标签 云 ” 序列 分 析 。” 网络 结 构 


4. 可 视 化 应 用 








图 6-2 数据 可 视 化 流程 
1. 数据 获取 


数据 获取 的 形式 多 种 多 样 ， 大 致 可 以 分 为 主动 式 和 被 动 式 两 种 。 主 动 
式 获取 是 以 明确 的 数据 需求 为 目的 ， 利 用 相关 技术 手段 主动 采集 相关 数据 ， 
如 卫星 影像 、 测 绘 工程 等 ， 被动 式 获取 是 以 数据 平台 为 基础 ， 由 数据 平台 
的 活动 者 提供 数据 来 源 ， 如 电子 商务 网 站 、 网 络 论坛 等 。 


2. 数据 处 理 


数据 处 理 是 指 对 原始 的 数据 进行 分 析 、 预 处 理 和 计算 等 步 又。 数据 处 
理 的 目标 是 保证 数据 的 准确 性 、 可 用 性 等 。 


3. 可 视 化 模式 


可 视 化 模式 是 数据 的 一 种 特殊 展现 形式 ， 常见 的 可 视 化 模式 有 标签 云 、 
序列 分 析 、 网 络 结构 、 电 子 地 图 和 等。 可视化 模式 的 选取 决定 了 可 视 化 方案 
的 雏形 。 


4. 可 视 化 应 用 
可 视 化 应 用 主要 根据 用 户 的 主观 需求 展开 ， 最 主要 的 应 用 方式 是 用 来 
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观察 和 展示 ， 通 过 观察 和 人 脑 分 析 进 行 推理 和 认 知 ， 辅 助人 们 发 现 新 知识 
或 者 得 到 新 结论 。 可 视 化 界面 也 可 以 帮助 人 们 进行 人 与 数据 的 交互 ， 辅 助 
人 们 完成 对 数据 的 迭代 计算 ， 通 过 若干 步 ， 数 据 的 计算 实验 ， 生 产 系列 化 
的 可 视 化 成 果 。 


6.2 大 数据 可 视 化 方法 


大 数据 可 视 化 技术 涵盖 了 传统 的 科学 可 视 化 和 信息 可 视 化 两 个 方面 ， 
它 以 从 海量 数据 分 析 和 信息 挖掘 为 出 发 点 ， 信 息 可 视 化 技术 将 在 大 数据 可 
视 化 中 扮演 更 为 重要 的 角色 。 根 据 信息 的 特征 可 以 把 信息 可 视 化 技术 分 为 
一 维 、 二 维 、 三 维 、 多 维 信息 可 视 化 ， 以 及 层次 信息 可 视 化 (Tree)、 网 络 
信息 可 视 化 (Network) 和 时 序 信 息 可 视 化 (Temporal)。 多 年 来 , 研究 者 围 
绕 上 述 信息 类 型 提出 众多 的 信息 可 视 化 新 方法 和 新 技术 ， 并 获得 了 广泛 的 
应 用 。 本 节 将 以 文本 可 视 化 、 网 络 图 可 视 化 和 多 维 数据 可 视 化 进行 重点 讲 


解 ， 如 图 6-3 所 示 。 
文本 
可 视 化 
> 


大 数据 
可 视 化 方法 






多 维 数据 
可 视 化 





6-3 ”大 数据 可 视 化 方法 


6.2.1 文本 可 视 化 


文本 信息 是 大 数据 时 代 非 结构 化 数据 类 型 的 典型 代表 ， 是 互联 网 中 最 
主要 的 信息 类 型 。 当 下 比较 热门 的 物 联网 各 种 传感器 采集 到 的 信息 ， 以 及 
人 们 日 常 工作 和 生活 中 接触 的 电子 文档 ， 都 是 以 文本 形式 存在 的 。 文 本 可 
视 化 的 意义 在 于 ， 能 够 将 文本 中 缠 含 的 语义 特征 (如 词 频 与 重要 度 、 迪 辑 
结构 、 主 题 聚 类 、 动 态 演化 规律 等 ) 直观 地 展示 出 来 。 





1. 标签 云 


如 图 6-4 所 示 是 一 种 称 为 标签 云 (Word Clouds 或 Tag Clouds) 的 典型 


se 一 第 6 章 大 数据 可 视 化 


文本 可 视 化 技术 。 它 将 关键 词根 据 词 频 或 其 他 规则 进行 排序 ， 按 照 一 定 规 
律 进行 布局 排列 ， 用 大 小 、 颜 色 、 字 体 等 图 形 属性 对 关键 词 进行 可 视 化 。 

般 用 字号 大 小 代表 该 关键 词 的 重要 性 ， 该 技术 多 用 于 快速 识别 网 络 媒 体 
的 主题 热度 。 
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文本 中 通常 蕴含 着 逻辑 层次 结构 和 一 定 的 叙述 模式 ， 为 了 对 结构 语义 
进行 可 视 化 , 研究 者 提出 了 文本 的 语义 结构 可 视 化 技术 。 图 6-5 所 示 是 两 种 
可 视 化 方法 : DAViewer 将 文本 的 叙述 结构 语义 以 树 的 形式 进行 可 视 化 ， 
同时 展现 了 相似 度 统计 、 修 辞 结构 及 相应 的 文本 内 容 ， DocuBurst 以 放射 状 
层次 圆 环 的 形式 展示 文本 结构 。 基 于 主题 的 文本 聚 类 是 文本 数据 挖掘 的 重 
要 研究 内 容 ， 为 了 可 视 化 展示 文本 聚 类 效果 ， 通 常 将 一 维 的 文本 信息 投射 
到 二 维 空间 中 ， 以 便于 对 聚 类 中 的 关系 予以 展示 。 例 如 ，Hipp 提供 了 一 种 
基于 层次 化 点 排 布 的 投影 方法 ， 可 广泛 用 于 文本 聚 类 可 视 化 。 上 述 文本 语 
义 结构 可 视 化 方法 仍 建立 在 语义 挖掘 基础 上 ， 与 各 种 挖掘 算法 绑 定 在 一 起 。 


2. 动态 文本 时 序 信 息 可 视 化 


有 些 文本 的 形成 和 变化 过 程 与 时 间 是 紧密 相关 的 ， 因 此 ， 如 何 将 动态 
变化 的 文本 中 时 间 相 关 的 模式 与 规律 进行 可 视 化 展示 ， 是 文本 可 视 化 的 重 
要 内 容 。 引 入 时 间 轴 是 一 类 主要 方法 ， 常 见 的 技术 以 河流 图 居多 。 河 流 图 
按照 其 展示 的 内 容 可 以 划分 为 主题 河流 图 、 文 本 河流 图 及 事件 河流 图 等 。 

主题 河流 图 (Theme River) 以 河流 的 隐喻 方式 ， 从 左 至 右 的 流 消 代表 
时 间 轴 ， 文 本 中 的 每 个 主题 用 一 条 色 带 表示 ， 主 题 的 频 度 以 色 带 的 宽 窗 表 
示 。 图 6-6 (a) 所 示 是 基于 河流 隐喻 ， 提 出 的 文本 流 〈Text Flow) 方法 ， 
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进一步 展示 了 主题 的 合并 和 分 支 关 系 以 及 演变 。 图 6-6 (b) 所 示 为 事件 河 
流 图 (Event River)， 其 中 将 新 闻 进行 了 聚 类 ， 并 以 气泡 的 形式 展示 出 来 。 








IN 90 240 3841 344321883 1844 :995 2986 1947 199 


(a) 文本 流 (b) 事件 流 
图 6-6 动态 文本 时 序 信息 可 视 化 


6.2.2 网 络 (图 ) 可 视 化 


网 络 关联 关系 在 大 数据 中 是 一 种 常见 的 关系 ， 在 当前 的 互联 网 时 代 ， 
社交 网 络 可 谓 是 无 处 不 在 。 社 交 网 络 服务 是 指 基于 互联 网 的 人 与 人 之 间 的 
相互 联系 、 信息 沟通 和 互动 娱乐 的 运作 平台 。 新 浪 微 博 、 腾 讯 微 博 、Facebook、 


Twitter 等 都 是 当前 互联 网 上 较为 常见 的 社交 网 站 。 基 于 这 些 社交 网 站 提供 
的 服务 建立 起 来 的 虚拟 化 网 络 就 是 社交 网 络 。 

社交 网 络 是 一 个 网 络 型 结构 ， 其 典型 特征 是 由 节点 与 节点 之 间 的 连接 
构成 的 。 这 些 一 个 个 的 节点 通常 代表 一 个 个 人 或 者 组 织 ， 节 点 之 间 的 连接 
关系 有 朋友 关系 、 亲 属 关 系 、 关 注 或 转发 关系 微 博 )、 支 持 或 反对 关系 ， 
或 者 拥有 共同 的 兴趣 爱好 等 。 例如 , 图 6-7 所 示 为 NodeXL 研究 人 员 之 间 的 
组 织 〈 社 会 ) 关系， 节点 表示 成 员 或 组 织 机 构 ， 两 个 节点 之 间 的 边 代表 这 
两 个 节点 之 间 存 在 隶属 关系 。 
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图 6-7 NodeXL 研究 人 员 及 其 组 织 机 构 社会 网 络 图 


次 结构 数据 也 属于 网 络 信息 的 一 种 特殊 情况 。 基 于 网 络 节点 和 连接 
的 拓扑 关系 ， 直 观 地 展示 网 络 中 潜在 的 模式 关系 ， 例 如 ， 节 点 或 边 聚 集 性 ， 
是 网 络 可 视 化 的 主要 内 容 之 一 。 对 于 具有 海量 节点 和 边 的 大 规模 网 络 ， 如 
何在 有 限 的 屏幕 空间 中 进行 可 视 化 ， 将 是 大 数据 时 代 面 临 的 难点 和 重点 。 
此 外 ， 大 数据 相关 的 网 络 往往 具有 动态 演化 性 ， 因 此 ， 如 何 对 动态 网 络 的 
特征 进行 可 视 化 ， 也 是 不 可 或 缺 的 研究 内 容 。 研 究 者 提出 了 大 量 网 络 可 视 
化 或 图 可 视 化 技术 ，Herman 等 人 综述 了 图 可 视 化 的 基本 方法 和 技术 ， 如 
图 6-8 所 示 。 经 典 的 基于 节点 和 边 的 可 视 化 , 是 图 可 视 化 的 主要 形式 。 图 中 
主要 展示 了 有 具有 层次 特征 的 图 可 视 化 的 典型 技术 ,例如 , 互 状 树 (H-Tree)、 
圆锥 树 (Cone Tree)、 气 球 图 (Balloon View)、 放 射 图 (Radial Gragh)、 三 
维 放射 图 (3D Radial)、 双 曲 树 (Hyperbplic Tree) 等 。 对 于 具有 层次 特征 
的 图 ， 空 间 填充 法 也 是 常 采 用 的 可 视 化 方法 ， 例 如 ， 树 图 技术 (Treemaps) 
及 其 改进 技术 ， 如 图 6-9 所 示 是 基于 矩形 填充 、Voronoi 图 填充 、 媒 套 圆 填 
充 的 树 可 视 化 技术 。Gou 等 人 综合 集成 了 上 述 多 种 图 可 视 化 技术 ， 提 出 了 
TreeNetViz， 综 合 了 放射 图 、 基 于 空间 填充 法 的 树 可 视 化 技术 。 这 些 图 可 视 
化 方法 技术 的 特点 是 直观 表达 了 图 节点 之 间 的 关系 ， 但 算法 难以 支撑 大 规 
模 〈 如 百 万 个 以 上 ) 图 的 可 视 化 ， 并 且 只 有 当 图 的 规模 在 界面 像素 总 数 规 
模范 围 以 内 时 效果 才 较 好 《〈 如 百 万 个 以 内 )。 因 此 ， 面 临 大 数据 中 的 图 ， 需 




















数据 可 视 化 


147 一 





要 对 这 些 方法 进行 改进 ， 例 如 ， 计 算 并 行 化 、 图 聚 簇 简化 可 视 化 、 多 尺度 


交互 等 。 





NS 伪 
图 6-8 基于 节点 链接 的 图 和 树 可 视 化 方法 














图 6-9 基于 空间 填充 的 树 可 视 化 


大 规模 网 络 中 ， 随 着 海量 节点 和 边 的 数目 不 断 增多 ， 例 如 ， 规 模 达 到 
百 万 个 以 上 时 ， 可 视 化 界面 中 会 出 现 节点 和 边 大 量 聚 集 、 重 共和 禾 盖 问题 ， 
使 得 分 析 者 难以 辨识 可 视 化 效果 。 图 简化 (Graph Simplification) 方法 是 处 
理 此 类 大 规模 图 可 视 化 的 主要 手段 : 一 类 简化 是 对 边 进行 聚集 处 理 ， 如 基 
于 边 捆绑 (Edge Bundling) 的 方法 ， 使 得 复杂 网 络 可 视 化 效果 更 为 清晰 
图 6-10 展示 了 3 种 基于 边 捆绑 的 大 规模 密集 图 可 视 化 技术 。 此 外 ，Ersoy 
等 人 还 提出 了 基于 骨架 的 图 可 视 化 技术 ， 主 要 方法 是 根据 边 的 分 布 规律 计 
算出 骨架 ， 然 后 再 基于 骨架 对 边 进行 捆绑 ， 另 一 类 简化 是 通过 层次 聚 类 与 
多 尺度 交互 ， 将 大 规模 图 转化 为 层次 化 树 结构 ， 并 通过 多 尺度 交互 来 对 不 
同 层次 的 图 进行 可 视 化 。 这 些 方法 将 为 大 数据 时 代 大 规模 图 可 视 化 提供 有 
力 的 支持 ， 同 时 我 们 应 该 看 到 ， 交 互 技术 的 引入 ， 也 将 是 解决 大 规模 图 可 
视 化 不 可 或 缺 的 手段 。 

动态 网 络 可 视 化 的 关键 是 如 何 将 时 间 属 性 与 图 进行 融合 ， 基 本 的 方法 
是 引入 时 间 轴 。 例如 ，Story Flow 是 一 个 对 复杂 故事 中 角色 网 络 的 发 展 进行 
可 视 化 的 工具 ， 该 工具 能 够 将 《指环 王 》 中 各 角色 之 间 的 复杂 关系 随时 间 
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6-10 ”基于 边 捆绑 的 大 规模 密集 图 可 视 化 


的 变化 ， 以 基于 时 间 线 的 节点 聚 类 的 形式 展示 出 来 。 然 而 ， 这 些 例 子 涉及 
的 网 络 规模 较 小 。 总 体 而 言 ， 目 前 针对 动态 网 络 演化 的 可 视 化 方法 研究 仍 
较 少 ， 大 数据 背景 下 对 各 类 大 规模 复杂 网 络 如 社会 网 络 和 互联 网 等 的 演化 
规律 的 探究 ， 将 推动 复杂 网 络 的 研究 方法 与 可 视 化 领域 进一步 深度 融合 。 


6.2.3 ”多 维 数据 可 视 化 


多 维 数据 指 的 是 具有 多 个 维度 属性 的 数据 变量 ， 广 泛 存在 于 基于 传统 
关系 数据 库 及 数据 仓库 的 应 用 中 。 例 如 ， 企 业 信息 系统 及 商业 智能 系统 。 
多 维 数据 分 析 的 目标 是 探索 多 维 数据 项 的 分 布 规律 和 模式 ， 并 揭示 不 同 维 
度 属性 之 间 的 隐 含 关系 。Keim 等 人 归纳 了 多 维 可 视 化 的 基本 方法 ， 包 括 基 
于 几何 图 形 、 基 于 图 标 、 基 于 像素 、 基 于 层次 结构 、 基 于 图 结构 及 混合 方 
法 。 其 中 ， 基 于 几何 图 形 的 多 维 可 视 化 方法 是 近年 来 主要 的 研究 方向 。 大 
数据 背景 下 ， 除 了 数据 项 规模 扩张 带 来 的 挑战 ， 高 维 所 引起 的 问题 也 是 研 
究 的 重点 。 


1. 散 点 图 


散 点 图 (Scatter Plot) 是 最 为 常用 的 多 维 可 视 化 方法 。 二 维 散 点 图 将 多 
个 维度 中 的 两 个 维度 属性 值 集合 映射 至 两 条 轴 ， 在 二 维 轴 确定 的 平面 内 通 
过 图 形 标 记 的 不 同 视觉 元 素来 反映 其 他 维度 属性 值 ， 例 如 ， 可 通过 不 同形 
状 、 颜 色 、 尺 寸 等 来 代表 连续 或 离散 的 属性 值 ， 如 图 6-11 (a) 所 示 。 

二 维 散 点 图 能 够 展示 的 维度 十 分 有 限 ， 研 究 者 将 其 扩展 到 三 维 空间 ， 通 
过 可 旋转 的 Scatter Plot 方块 (Dice) 扩展 了 可 映射 维度 的 数目 , 如 图 6-11 (b) 
所 示 。 散 点 图 适合 对 有 限 数目 的 较为 重要 的 维度 进行 可 视 化 ， 通 常 不 适 于 
需要 对 所 有 维度 同时 进行 展示 的 情况 。 

(1) 投影 

投影 (Projection) 是 能 够 同时 展示 多 维 的 可 视 化 方法 之 一 。 如 图 6-12 
所 示 ，VaR 将 各 维度 属性 列 集合 通过 投影 函数 映射 到 一 个 方块 形 图 形 标记 
中 ， 并 根据 维度 之 间 的 关联 度 对 各 个 小 方块 进行 布局 。 基 于 投影 的 多 维 可 
视 化 方法 一 方面 反映 了 维度 属性 值 的 分 布 规律 ， 同 时 也 直观 地 展示 了 多 维 
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(a) (b) 
图 6-11 二 维和 三 维 散 点 图 


度 之 间 的 语义 关系 。 

(2) 平行 坐标 

平行 坐标 〈Parallel Coordinates) 是 研究 和 应 用 最 为 广泛 的 一 种 多 维 可 
视 化 技术 ， 如 图 6-13 所 示 ， 将 维度 与 坐标 轴 建 立 映射 ， 在 多 个 平行 轴 之 间 
以 直线 或 曲线 映射 表示 多 维 信息 。 近 年 来 ， 研 究 者 将 平行 坐标 与 散 点 图 等 
其 他 可 视 化 技术 进行 集成 , 提出 了 平行 坐标 散 点 图 PCP (Parallel Coordinate 
Plots)。 如 图 6-14 所 示 ， 将 散 点 图 和 柱状 图 集成 在 平行 坐标 中 ,支持 分 析 者 
从 多 个 角度 同时 使 用 多 种 可 视 化 技术 进行 分 析 ，Geng 等 人 建立 了 一 种 具有 
角度 的 柱状 图 平行 坐标 ， 支 持 用 户 根据 密度 和 角度 进行 多 维 分 析 。 大 数据 
环境 下 ， 平 行 坐 标 面临 的 主要 问题 之 一 是 大 规模 数据 项 造成 的 线条 密集 与 
重 且 覆盖 问题 ， 根 据 线条 聚集 特征 对 平行 坐标 图 进行 简化 ， 形 成 聚 簇 可 视 
化 效果 ， 如 图 6-15 所 示 ， 将 为 这 一 问题 提供 有 效 的 解决 方法 。 
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图 6-12 基于 投影 的 多 维 可 视 化 图 6-13 平行 坐标 多 维 可 视 化 技术 








图 6-15 “平行 坐标 图 聚 簇 可 视 化 


6.3 ”大 数据 可 视 化 软件 与 工具 


6.3.1 Excel 


Excel 是 Microsoft Office 的 组 件 之 一 ， 是 由 Microsoft 为 Windows 和 
Apple Macintosh 操作 系统 的 计算 机 编写 和 运行 的 一 款 表格 计算 软件 。Excel 
是 微软 办 公 套 装 软件 的 一 个 重要 组 成 部 分 ， 它 可 以 进行 各 种 数据 的 处 理 、 
统计 分 析 、 数 据 可 视 化 显示 及 辅助 决策 操作 ， 广 泛 地 应 用 于 管理 、 统 计 、 
财经 、 金 融 等 众多 领域 。 本 节 重 点 讨论 Excel 在 数据 可 视 化 处 理 方面 的 应 用 。 


1. 应 用 Excel 的 可 视 化 规则 实现 数据 的 可 视 化 展示 


Excel 从 2007 版 本 开始 为 用 户 提供 了 可 视 化 规则 ， 借 助 于 该 规则 的 应 
用 可 以 使 抽象 数据 变 得 更 加 丰富 多 彩 ， 通 过 规则 的 应 用 ， 能 够 为 数据 分 析 
者 提供 更 加 有 用 的 信息 ， 如 图 6-16 所 示 。 


11980004| 赵 智勇 
11980006| 王 兴国 
| 梁 立 | 





| 男 | NN 34 1.00 
郑 食品 D S| | 46 lm ¥, 342.00l 
6-16 ”利用 Excel 的 可 视 化 规则 实现 数据 的 可 视 化 展示 
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2. 应 用 Excel 的 图 表 功 能 实现 数据 的 可 视 化 展示 


Excel 的 图 表 功 能 可 以 将 数据 进行 图 形 化 ， 帮 助 用 户 更 直观 地 显示 数 
据 ， 使 数据 对 比 和 变化 趋势 一 目 了 然 ， 从 而 达到 提高 信息 整体 价值 ， 更 准 
确 、 直 观 地 表达 信息 和 观点 。 图 表 与 工作 表 的 数据 相 链接 ， 当 工作 表 数 据 
发 生 改变 时 ， 图 表 也 随 之 更 新 ， 反 映 出 数据 的 变化 。 本 书 以 Excel 2016 版 
本 为 例 ， 它 提供 了 柱 形 图 、 折 线 图 、 散 点 图 等 常用 的 数据 展示 形式 供用 户 
选择 使 用 ， 如 图 6-17 所 示 。 图 6-18 所 示 是 利用 Excel 图 表 中 的 折线 图 对 员 
工 信 息 表 中 的 年 龄 和 工资 信息 进行 的 可 视 化 展示 。 


"| 


柱 形 图 折线 图 饼 图 条 形 图 面积 图 散 点 图 其 他 图 表 

















图 表 
图 6-17 ”Excel 图 表 样式 
单位 : 元 
15 000 60 
] 50 
10 000 140 
-130 
加 TT 
5000F 120 工资 
-1 10 -人 年龄 
0 0 
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图 6-18 利用 Excel 图 表 中 的 折线 图 制作 的 “工资 ”和 “年 龄 ”数据 展示 
6.3.2 Processing 


Processing 是 一 个 开源 的 编程 语言 和 编程 环境 , 支持 Windows、Mac OS、 
Linux 等 多 个 操作 系统 。Processing 就 是 一 种 具有 革命 前 瞻 性 的 新 兴 计 算 机 
语言 ， 以 数字 艺术 为 背景 的 程序 语言 ， 它 的 用 户主 要 面向 计算 机 程序 员 和 
数字 艺术 家 。Processing 是 Java 语言 的 延伸 ， 并 支持 许多 现 有 的 Java 语言 
架构 ， 不 过 在 语法 上 简易 许多 ， 并 具有 许多 人 性 化 的 设计 。 不 需要 太 高 深 
的 编程 技术 便 可 以 创作 震撼 的 视觉 表现 及 互动 媒体 作品 。Processing 还 可 以 
结合 Arduino 单片机 等 硬件 ， 制 作出 回归 人 际 物理 世界 的 互动 系统 。 

Processing 在 数据 可 视 化 领域 有 着 广泛 的 应 用 ， 可 制作 信息 图 形 、 信 息 
可 视 化 、 科 学 可 视 化 和 统计 图 形 等 。 下 面 通过 一 个 简单 的 实例 来 认识 一 下 
如 何 利用 Processing 实现 数据 的 可 视 化 展示 。 如 表 6-1 所 示 为 美国 各 州 GDP 





增长 率 。 该 示例 将 一 系列 随机 数据 呈现 在 地 图 上 ， 将 数值 的 大 小 通过 圆 点 
的 大 小 可 视 化 地 显示 出 来 。 


表 6-1 美国 各 州 GDP 增长 率 ( 数据 随机 设 生 成 ) 











State Name Location-x value 
Alabama (AL) 439 0.1 
Alaska (AK) 94 3.3 
Arizona (AZ) 148 FE 
Arkansas (AR) 368 
Califomia (CA) 56 11 
Colorado (CO) 220 5 
Washington (WA) 92 2 
West Virginia (WV) 496 5.4 
Wisconsin (WI) 392 3 
Wyoming (WY) 207 -6 

将 数据 可 视 化 地 显示 出 来 的 步骤 如 下 。 
@ 声明 (初始化) 变量， 代码 如 下 : 
Plmage picture Image; 
Table location Table; 
Table name Table; 
int row Count; 
Table dataTable; 
float dataMin=MAX_FLOAT; 
float dataMin=MIN_FLOAT; 
@ 初始 化 画布 ， 加 载 〈 生 成 ) 数据 ， 代 码 如 下 : 
void setup ( ){ 
size ( 640，400 ); 
Picture Image=load Image ( "picture.png" ); // 加 载 图 片 
Color Table=new Table ( "color.tsv" ); // 加 载 色 彩信 息 
name Table=new Table ( "names.tsv" ); // 加 载 名 称 信息 
Row Count=color Table.get Row Count ( ); 
data Table=new Table ( "random .tsv" ); 1/ 加 载 随机 数据 


for ( int row=0; row<row Count; row++ ) { 
float value=data Table.get Float ( row，1 ); 
if ( value>data Max ) { 
Data Max=value; 


} 
if ( value<data Min ) { 


Data Min=value; 


} 


} 
PFont font=load Font ( "Univers-Bold-12.vlw" ); 


Text Font ( font ); 


smooth ( ); 
noStroke ( ); 


} 


图 调用 绘制 函数 绘制 图 形 ， 代 码 如 下 


void draw ( ){ 
background ( 255 ); 
image ( picture Image, 0, 0); 


for (int row=0; row<row Count; row++){ 
String abbrev=data Table.get Row Name ( row ); 
float x=color Table.getFloat ( abbrev，1 ); 
float y=color Table.getFloat ( abbrev，2 ); 
Draw Data ( x，y，abbrev ); 


上 
} 


void draw Data ( float x, float y, String abbrev ) { 
float value=data Table.getFloat ( abbrev，1 ); 
float radius=0; 
if (value>=0 ) { 
radius=map (value, 0, dataMax, 1.5, 15); 
fill ( #333366 ); //blue 
}else{ 
radius=picture ( value, 0, dataMin, 1.5, 15); 
fill (#ec5166 ); red 


} 


ellipseMode ( RADIUS ); 
ellipse (x, y, radius, radius ); 
if (dist (x, y, mouseX, mouseY ) <radius+2 ) { 
fill (0); 
Text Align ( CENTER ); 
String name=nameTable.getString ( abbrev, 1); 
text ( name+" "+value, x, y-radius-4 ); 


b 


该 段 代码 执行 后 的 结果 可 以 清楚 地 看 出 正 增长 与 负增长 ， 
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代表 数据 的 绝对 值 大 小 。 
6.3.3 ECharts 


ECharts 是 商业 级 数据 图 表 (Enterprise Charts) 的 缩写 ， 是 百度 公司 旗 
下 的 一 款 开源 可 视 化 图 表 工具 。ECharts 是 一 个 纯 JavaScript 的 图 表 库 ， 可 
以 流畅 地 运行 在 PC 和 移动 设备 上 , 兼容 当前 绝 大 部 分 浏览 器 (IE6/7/8/9/10/ 
11、Chrome、Firefox 、Safair 等 )。 它 的 底层 依赖 轻 量 级 的 Canvas 类 库 
ZRender， 提 供 直观 、 生 动 、 可 交互 、 可 高 度 个 性 化 定制 的 数据 可 视 化 图 表 。 
创新 的 拖 搜 重 计算 、 数 据 视 图 、 值 域 漫 游 等 特性 大 大 地 增强 了 用 户 体检 ， 
赋予 了 用 户 对 数据 进行 挖掘、 整合 的 能 力 。 

ECharts 自 2013 年 6 月 正式 发 布 1.0 版 本 以 来 ， 在 短 短 两 年 多 的 时 间 ， 
功能 不 断 完 善 ， 截 至 目前 ，ECharts 已 经 可 以 支持 包括 柱状 图 (条 状 图 )、 
折线 图 (区域 图 )、 散 点 图 (气泡 图 )、K 线 图 、 饼 图 (环形 图 )、 雷达 图 ( 填 
充 雷 达 图 )、 和 弦 图 、 力 导向 布局 图 、 仪 表盘 、 漏 斗 图 、 事 件 河 流 图 等 12 
类 图 表 ， 同 时 提供 标题 、 详 情 气泡 、 图 例 、 值 域 、 数 据 区 域 、 时 间 轴 、 工 
具 箱 7 个 可 交互 组 件 ， 支 持 多 图 表 、 组 件 的 联动 和 混搭 展现 。 图 6-19 所 示 
为 利用 ECharts 可 以 制作 的 部 分 图 表 展 示 。 


Bar Line Chord Gauge Funnel lsland 

柱状 图 | | 折线 图 | | 散 点 图 和 粥 图 | | 力 导向 布局 | | 仪表 盘 | | 漏斗 图 || 孤岛 
图 

0. ! 本 © 

| 训 || 识 BO Fl 


图 6-19 ECharts 制作 的 图 表 


ECharts 图 表 工 具 为 用 户 提 供 了 详细 的 帮助 文档 ， 这 些 文档 不 仅 介 绍 了 
每 类 图 表 的 使 用 方法 ， 还 详细 介绍 了 各 类 组 件 的 使 用 方法 ， 每 类 图 表 都 提 
供 了 丰富 的 实例 。 用 户 在 使 用 时 可 以 参考 实例 提供 的 代码 ， 稍 加 修改 就 可 
以 满足 自己 的 图 表 展 示 需 求 。 接 下 来 结合 ECharts 提供 的 一 个 2010 年 世界 
人 口 分 布 图 的 实例 来 详细 介绍 ECharts 的 使 用 方法 。 表 6-2 所 示 是 2010 年 世 
界 人 口 数据 。 








表 6-2 2010 年 世界 人 口 数据 





国 ”家 人 口 数 量 
China 1 359 821 465 
India 1 205 624 648 
United States of America 312 247 116 


United kingdom 62 066 350 
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实现 代码 如 下 : 


option={ 
title: { 
text: "World Population ( 2010 ) ', 
subtext: from United Nations, Total population, both sexes combined, as 
of 1 July ( thousands ) ', 
sublink: 'http: Weas.un.org/wpp/Excel-Data/population.htm ， 
left: 'center', 
top: ‘top' 
》， 
tooltip: { 
trigger: ‘item', 
formatter: function ( params ) { 
var value= ( params.value+” ) .split (…); 
value=value[0].replace (\d{1, 3})(?= (?: \d{3}) + (?N\d))/g, '$1, ') 
+".'+value[1]; 
return params.seriesName+'<br/>'+params.name+': '+value; 
由 
》， 
toolbox: { 
show: true, 
orient: vertical ， 
left: "right ， 
top: "center ， 
feature: { 
mark: {show: true}, 
dataView: {show: true, readOnly: false}, 
restore: {show: true}, 
SaveAslmage: {show: true} 
ly 
} 
visual Picture: { 
min: 0， 
max: 100000， 
text: [High', 'Low'], 
realtime: false, 
calculable: true, 
color: [orangered', 'yellow', 'lightskyblue'] 
}, 
series: [ 
{ 
name: "World Population ( 2010 ) ', 
type: "Picture ， 
picture Type: "World'，/world、china、europe 等 
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roam: true， 
itemStyle: { 
emphasis: {lable: {show: true}} 
}, 
data: [ /此 处 是 我 们 要 展示 的 数据 ( 如 果 是 网 络 动态 数据 ， 可 以 在 程序 中 用 
json 数据 实时 传递 过 来 
{name: 'China', value: 1359821.465}, 
{name: 'India', value: 1205624.648}, 
{name: 'United States of America'’, value: 312247.116}, 


] 
} 
] 
}; 

利用 ECharts 展示 的 可 交互 的 世界 人 口 分 布 图 示 , 用 户 通 过 将 鼠标 移入 
不 同 的 国家 地区) 内 部 ， 即 可 查看 到 该 国家 《〈 地 区 ) 的 人 口 数量 ; 左下 
角 的 垂直 滚动 条 可 以 用 于 设置 地 图 上 可 视 数据 的 最 大 值 和 最 小 值 ， 用 户 可 
以 通过 调整 滑 块 来 展示 某 个 区 间 的 数据 。 

通过 对 ECharts 案例 代码 的 分 析 , 当 用 户 需 要 在 图 片上 展示 自己 的 数据 
时 ， 只 需要 更 改 相关 的 几 个 属性 值 即 可 。 可 以 借助 ECharts 制作 软件 学 院 
2015 年 新 生生 源 分 布 图 。 在 上 面 的 实例 代码 基础 上 要 实现 这 个 实际 问题 的 
图 表 展 示 非 常 简单 ,只 需要 更 改 代码 中 的 两 处 即 可 : 一 处 是 图 片 类 型 (picture 
Type)， 将 字符 串 world 改 为 China; 男 一 处 是 数据 (Data)， 这 个 根据 具体 
的 需求 ， 将 数据 传 入 ECharts 工具 中 。 

综 上 所 述 ， 随 着 互联 网 、 物 联网 、 云 计算 的 迅猛 发 展 ， 数 据 随处 可 见 、 
触手 可 及 。 政 府 的 政策 制定 、 经 济 与 社会 的 发 展 、 企 业 的 生存 与 竞争 以 及 
每 个 人 日 常生 活 的 衣食 住 行 无 不 与 大 数据 有 关 。 因 此 ， 未 来 任何 领域 的 普 
通 个 人 均 存 在 着 大 数据 分 析 的 需求 。 

大 数据 可 视 化 是 大 数据 分 析 的 重要 方法 ， 能 够 有 效 地 弥补 计算 机 自动 
化 分 析 方法 的 劣势 与 不 足 。 大 数据 可 视 分 析 将 人 面 对 可 视 化 信息 时 强大 的 
感知 认 知 能 力 与 计算 机 的 分 析 计 算 能 力 优势 进行 有 机 融合 ， 在 数据 挖掘 等 
方法 技术 的 基础 上 ， 综 合 利用 认 知 理论 、 科 学 信息 可 视 化 以 及 人 机 交互 技 
术 ， 辅 助人 们 更 为 直观 和 高 效 地 洞悉 大 数据 背后 的 信息 、 知 识 与 智慧 。 相 
信和 随 着 科学 技术 的 发 展 ,“ 人 人 都 懂 大 数据 、 人 人 都 能 可 视 化 ”将 成 为 大 数 
据 领域 发 展 的 重要 目标 之 一 。 
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了 
个 


习题 

- 数据 可 视 化 有 哪些 基本 特征 ? 

- 简 述 可 视 化 技术 支持 计算 机 辅助 数据 认识 的 3 个 基本 阶段 。 
- 数据 可 视 化 对 数据 的 综合 运用 有 哪 几 个 步骤 ? 

- 简 述 数据 可 视 化 的 应 用 。 

- 简 述 文本 可 视 化 的 意义 。 

- 网 络 (图) 可 视 化 有 哪些 主要 形式 ? 

- 大 数据 可 视 化 软件 和 工具 有 哪些 ? 

. 如 何 应 用 Excel 表格 功能 实现 数据 的 可 视 化 展示 ? 
. 查阅 相关 资料 ， 实 例 演示 Processing 的 使 用 。 
10. 查阅 相关 资料 ， 实 例 演示 ECharts 的 使 用 。 
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大 数据 的 商业 应 用 


大 数据 的 出 现 给 我 们 生活 带 来 了 巨大 变革 ， 开 启 了 分 享 和 应 用 数据 的 
时 代 ， 我 们 对 海量 数据 进行 分 析 ， 从 而 获得 全 新 的 产品 、 服 务 或 独到 的 见 
解 ， 形 成 促进 社会 发 展 的 力量 ， 实 现 重 大 的 时 代 转 型 。 现 今 ， 大 数据 正 改 
变 我 们 的 生活 以 及 我 们 对 世界 的 理解 方式 ， 正 在 成 为 新 服务 的 源泉 。 

大 数据 并 不 是 一 种 全 新 的 技术 ， 它 更 多 的 是 一 种 借助 真实 数据 汇聚 、 
数据 分 析 及 其 可 视 化 、 分 布 式 计算 ， 利 用 数据 分 析 问 题 的 思维 方式 和 工作 
方法 。 在 当前 的 互联 网 领域 ， 大 数据 的 应 用 已 经 十 分 的 广泛 ， 尤 其 是 以 公 
司 、 企 业 为 主 ， 企 业 成 为 大 数据 应 用 的 主体 。 大 数据 真正 能 改变 企业 的 运 
作 方 式 吗 ? 答案 毋庸 置疑 是 肯定 的 。 随 着 企业 开始 利用 大 数据 ， 我 们 每 天 
都 会 看 到 大 数据 新 的 奇妙 的 应 用 ， 帮 助人 们 真正 从 中 获 益 。 

大 数据 的 应 用 已 广泛 深入 我 们 生活 的 方方面面 ， 各 行 各 业 都 在 利用 大 数 
据 技术 对 数据 进行 处 理 和 分 析 ， 涵 盖 医 疗 、 交 通 、 金 融 、 教 育 、 体 育 、 零 售 
等 各 行 各 业 。 本 章 将 以 国内 外 例子 给 读者 展示 大 数据 应 用 的 经 典 案例 。 


7.1 国外 大 数据 应 用 经 典 案例 


麻 省 理工 学 院 教授 Erik Brynjolfsson， 其 研究 领域 包括 擅长 利用 数据 来 
对 公司 进行 决策 ， 整 体 绩效 比 不 用 数据 的 公司 ， 生 产 力 至 少 要 高 出 6 个 百 
分 点 。 例 如 ，Google、 亚 马 逊 等 公司 竞争 力 明 显 增强 ， 而 不 少 新 创 公 司 则 
因为 具有 大 数据 的 思维 和 前 瞻 性 ， 成 为 业界 佼佼 者 。BIG DATA 的 作者 、 牛 
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津 大 学 教授 Viktor Mayer-Schonberger 则 提出 使 用 大 量 的 资料 ， 利 用 数据 概 
念 ， 引 入 分 析 数 据 技术 ， 符 合 逻 辑 思维 ， 所 有 企业 都 可 以 成 为 行业 龙头 企 
业 ， 推 动 和 促进 人 类 的 进步 和 社会 的 发 展 。 


7.1.1 资源 数量 的 重要 性 


在 大 数据 时 代 下 ， 资 料 的 数量 比 资料 的 品质 更 重要 。Google 就 是 一 个 
成 功 的 案例 。Google 的 翻译 软件 涵盖 了 60 种 语言 。 早 在 20 世纪 90 年 代 
IBM 的 专家 就 曾 开发 一 套 Candide 翻译 系统 ， 采 用 加 拿 大 国会 的 英法 双语 
文件 ， 大 约 是 300 万 个 句 对 ， 训 练 计算 机 读 懂 使 用 概率 ， 寻 找 词 汇 库 中 对 
应 的 词汇 ， 来 增加 翻译 的 精准 度 ， 把 翻译 转换 成 数学 问题 ， 但 效果 不 明显 ， 
进展 不 大 ， 最 后 以 失败 告终 。 若 要 数据 精确 ， 首 先 必 须要 扩大 资料 的 规模 ， 
扩大 数据 量 ， 提 高 数据 在 库 中 的 选择 概率 。 

几 年 之 后 ，Google 决定 投入 翻译 领域 ， 但 不 同 于 IBM 使 用 的 300 万 个 
精心 翻译 的 句子 ， 而 是 使 用 手边 更 庞大 、 更 混乱 的 数据 集 。Google 采用 了 
相当 庞大 的 翻译 系统 ， 涉 及 全 球 网 络 ， 范 围 之 广 达 数 十 亿 个 翻译 网 页 ， 有 
高 达 兆 字 节 的 语料库 ， 收 录 所 找到 的 每 一 则 翻译 ， 用 来 训练 计算 机 。 资 料 
来 源 包括 各 公司 网 站 、 官 方 文件 的 多 语 翻 译 、 国 际 组 织 的 多 语 报 告 ， 或 是 
Google 图 书 扫描 的 数据 ， 甚 至 包含 网 上 各 种 断 简 残 篇 、 品 质 参差 不 齐 、 混 
乱 的 数据 。 这 样 一 来 ， 翻 译 的 准确 度 再 次 被 提升 ， 甚 至 某 个 英文 字 之 后 ， 
出 现 男 外 一 个 字 的 概率 ， 都 能 够 准确 的 计算 出 来 。Google 人 工 智能 专家 指 
出 ，Google 使 用 的 数据 ， 常 有 不 完整 的 句子 ， 如 拼 字 错 误 、 语 法 缺失 ， 但 
正 因为 拥有 比 其 他 语料库 多 出 千 万 倍 的 资料 ， 足 以 盖 过 它 的 缺点 。 

因此 ， 进 入 大 数据 时 代 的 第 一 个 应 用 观念 ， 就 是 要 接受 资料 数量 远 比 
数据 品质 更 重要 的 事实 。 


7.1.2 数据 之 间 的 相关 性 


以 美国 纽约 为 例 ， 每 年 都 会 因为 地 下 管道 火灾 ， 付 出 巨大 代价 ， 路 面 
上 重 达 140 千克 的 铸铁 孔 盖 更 是 常 因 问 烧 爆 炸 ， 飞 到 几 层 楼 高 ， 再 砸 回 地 
面 ， 造 成 严重 的 安全 事故 。 且 纽约 市 的 地 下 电缆 ， 长 度 超过 15 万 公里 ， 足 
以 绕 地球 3 圈 半 ， 光 曼哈顿 就 有 超过 5 万 多 个 孔 盖 ， 数 量 之 多 ， 就 算 每 年 
定期 检查 ， 意 外 仍然 防不胜防 。 负 责 管理 此 业务 的 爱迪生 联合 电力 公司 ， 
找到 哥伦比亚 大 学 统计 专家 Cynthia Rudin 协助 ， 期 望 能 够 解决 这 一 现状 ， 
缓解 和 减少 不 必要 事故 的 发 生 。 首 先 ， 他 们 先 收集 1880 一 2008 年 间 的 管 路 
历史 数据 , 但 是 光 维 修 孔 的 表达 方式 就 有 38 种 不 同 的 写法 , 数据 杂乱 无 章 。 
然而 研究 的 重点 ， 在 于 找 出 相关 性 。 不 在 于 为 什么 会 爆炸 ， 而 是 哪个 孔 盖 
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会 爆炸 。 筛 选 出 有 效 指标 ， 逐 步 缩小 问题 范围 ， 降 低 爆 炸 可 能 性 。 研 究 小 
组 从 106 个 重大 和 孔 盖 灾害 预测 指标 下 手 ， 慢 慢 去 芜 存 戎 ， 最 后 剩 下 几 个 最 
有 效 的 指标 。 接 着 他 们 再 缩小 范围 ， 仅 研究 某 一 区 的 地 下 电费， 分析 截至 
2008 年 的 数据 ， 来 预测 2009 年 的 危险 孔 盖 位 置 ， 结 果 小 组 列 出 的 前 10% 
的 危险 清单 ， 的 确 有 44% 曾 发 生 过 严重 事故 ， 也 据 此 找 出 最 有 相关 性 的 几 
个 指标 。 

最 后 ， 研 究 小 组 发 现 电缆 年 份 和 过 去 是 否 发 生 事故 是 最 重要 的 判断 指 
标 ， 依 此 原则 来 替 市 区 几 万 个 孔 盖 安 排 检查 顺序 。 虽 然 答案 好 像 显 而 易 见 
但 是 过 去 却 浑然 不 知 ， 直 到 研究 小 组 用 大 数据 的 科学 验证 ， 大 家 才 忱 然 大 
悟 。 纽 约 政府 利用 这 种 方式 同时 解决 了 城市 住宅 问题 。 


7.1.3 ”任何 数据 都 存在 商机 


对 于 大 数据 而 言 ， 首 先 要 能 够 接受 杂乱 数据 ， 从 中 找 出 相关 性 ， 进 行 
数据 分 析 。 当 然 还 有 另 一 个 重点 ， 就 是 任何 记录 ， 甚 至 连 情绪 、 社 交 图 谐 、 
搜寻 轨迹 ， 都 可 数据 化 。 例 如 ， 当 地 理 位 置 成 为 资料 时 ， 便 能 产生 无 限 商 
机 。 全球 最 大 的 打卡 社 群 平台 Foursquare， 最 重要 的 功能 就 是 让 用 户 随 时 打 
卡 、 拍 照 上 传 景点 。 

这 些 列 含 用 户 地 域 位 置 的 打卡 数据 、 轨 迹 ， 只 要 仔细 记录 下 来 ， 便 能 
够 了 解 某 一 时 间 、 地 点 ， 用 户 都 在 做 些 什么 事情 ? 借 此 推 播 精 准 的 广告 、 
折扣 信息 ， 甚 至 星巴克 、 麦 当 劳 都 跟 Foursquare 购买 这 些 打 卡 数据 ， 来 分 
析 决 定 要 在 哪里 开 新 门市 。 Foursquare 也 从 一 个 社 群 平台 , 变 成 有 附加 价值 
的 精确 市 场 分 析 数 据 提供 商 。 

联合 包 陵 速递 服务 公司 (UPS ) 也 是 率先 把 地 理 位 置 数据 化 的 应 用 成 功 
案例 。 他 们 通过 每 台 货车 的 无 线 电 设备 和 GPS， 精 确 知道 车 辆 所 在 位 置 ， 
并 从 累积 下 来 的 大 量 的 行车 路 径 ， 找 出 最 佳 行车 路 线 ， 进 行 推荐 。 从 这 些 
分 析 中 ，UPS 发 现 十 字 路 口 最 易 发 生意 外 、 红 绿灯 最 浪费 时 间 ， 只 要 减少 
通过 十 字 路 口 次 数 ， 就 能 省 油 、 提 高 安全 。 靠 着 大 数据 分 析 技 术 ，UPS 一 
年 送 货 里 程 大 幅 减少 4 800 公里 , 等 于 省 下 300 万 升 的 油料 及 减少 3 万 吨 二 
氧化 碳 排 放量 ， 安 全 性 和 效率 也 提高 了 ， 大 数据 让 出 行 变 得 低 碳 环保 。 

推 特 (Twitter) 也 是 一 个 非常 典型 的 大 数据 应 用 例子 ， 是 国外 一 个 大 型 
社交 网 站 ， 它 利用 人 们 的 情绪 和 社交 互动 进行 数据 分 析 。 推 特 (Twitter) 每 
天 至 少 有 4 亿 条 以 上 的 推 文 ， 表 面 看 来 大 多 数 推 文 ， 就 像 是 随口 喷 喷 ， 但 
却 成 了 重要 的 分 析 指 标 ， 可 以 用 来 提前 了 解 消费 者 反应 ， 或 是 判断 推销 活 
动 成 果 ， 不 少 公司 都 抢 着 要 和 推 特 〈Twitter) 签订 数据 资源 的 存 取 权 。 

网 购 龙头 亚马逊 正 是 依照 客户 浏览 的 历史 ， 来 比 对 产品 和 产品 的 关联 
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性 ， 开 发 无 人 能 敌 的 自动 推荐 系统 。 各 大 电 商 都 推出 自动 推荐 ， 猜 你 喜欢 
等 功能 ， 来 满足 消费 之 需求 。 现 在 亚 马 示 上 , 每 3 笔 订 单 ， 就 有 一 笔 是 来 
自 计算 机 推荐 和 定制 化 系统 。 这 便 是 ， 当 用 户 的 网 络 轨迹 成 为 数据 资源 而 
带 来 的 改变 ， 无 形 中 推动 了 一 个 行业 的 发 展 ， 带 动 了 经 济 增长 ， 完 成 了 科 
技 革 命 带 来 的 新 机 遇 。 


7.1.4 大 数据 新 价值 的 挖掘 


大 数据 的 使 用 ， 应 是 每 个 领域 ， 每 个 行业 和 每 个 企业 的 使 用 ， 并 不 是 
某 一 特定 行业 或 企业 的 专 有 技术 ， 不 要 认为 用 大 数据 分 析 ， 是 大 公司 或 是 
科技 大 厂 的 专利 ， 小 型 企业 不 一 定 要 自己 拥有 数据 ， 可 以 靠 授权 获得 ， 再 
使 用 康 价 云端 运算 平台 分 析 。 拥 有 大 数据 思维 和 好 点 子 ， 能 让 公司 蓬勃 发 
展 。 一 位 美国 顶尖 的 数据 科学 家 Oren Etzioni, 就 是 利用 大 数据 创业 的 先驱 。 

几 年 前 ，Oren Etzioni 在 从 西雅图 飞 往 洛杉矶 参加 弟弟 婚礼 的 飞机 上 ， 
发 现 临 座 几 位 乘客 的 票 价 都 比 他 的 便宜 ， 打 破 以 往 觉得 飞机 票 越 早 买 、 越 
省 钱 的 想法 ， 萌 生 创业 点 子 。 他 开发 出 了 预测 飞机 票 价 未 来 是 涨 是 跌 的 服 
务 Farecast。 其 关键 是 需要 取得 特定 航线 的 所 有 票 价 资讯 ， 再 比 对 与 出 发 日 
期 的 关联 性 ， 假 设 平均 票 价 下 跌 ， 则 买 票 的 事 可 以 暂 绥 ， 如 果 平 均 票 价 上 
升 ， 系统 就 会 建议 立即 购 票 。Oren Etzioni 先 在 某 个 旅游 网 站 取得 12 000 笔 
票 价 数据 作为 样本 , 建立 预测 模型 , 接着 引进 更 多 数据 , 直到 现在 ,Farecast 
手中 有 2 000 亿 笔 票 价 纪 录 。 后 来 Oren Etzioni 的 公司 被 微软 并 购 ， 并 把 这 
套 服务 结合 到 Bing 搜寻 引擎 中 , 平均 为 每 位 用 户 节省 50 美元 。 随 后 被 eBay 
并 购 的 价格 预测 服务 Decide.com， 也 是 Oren Etzioni 的 杰作 。 在 2012 年 ， 
开业 一 年 的 Decide， 已 调查 超过 250 亿 笔 价格 资讯 、 分 析 400 万 项 产品 
随时 和 数据 库 中 的 产品 价格 比 对 。 从 普查 中 ， 他 们 发 现 零售 业 秘密 ， 就 是 
新 产品 上 市 时 ， 旧 产品 竟 不 跌 反 涨 ， 或 异常 的 价格 暴涨 ， 来 警告 消费 者 先 
等 一 等 ， 再 下 手 。 

通过 对 数据 进行 分 析 比 对 ， 创 造 出 数据 的 新 价值 ， 将 数据 进行 整合 。 
从 大 量 数据 中 挖掘 出 通过 算法 搜索 隐藏 于 其 中 信息 的 过 程 ， 并 通过 统计 、 
在 线 分 析 处 理 、 情 报 检索 、 机 器 学 习 、 专 家 系统 〈 依 靠 过 去 的 经 验 法 则 ) 
和 模式 识别 等 诸多 方法 来 实现 上 述 目标 。 


7.1.5 大 数据 在 医疗 行业 的 应 用 


医保 行业 可 以 通过 大 数据 和 高 级 分 析 来 获得 巨大 收益 。 医 保 的 成 本 推 
动 了 对 大 数据 驱动 的 医保 应 用 系统 的 需求 ， 技 术 决 策 者 不 会 忽略 大 数据 带 
来 的 效率 提升 ， 经 济 吸引 力 和 快速 的 创新 步伐 ， 都 能 够 用 在 医保 行业 中 并 








se 一 第 7 章 大 数据 的 商业 应 


使 行业 受益 。 许 多 人 发 现 ， 对 医保 数据 进行 数字 化 和 共享 的 新 标准 和 激励 
措施 ， 以 及 商用 硬件 产品 在 存储 和 并 行 处 理 方面 的 改进 和 价格 的 下 降 ， 正 
在 导致 医保 行业 的 大 数据 革命 ， 其 以 更 低 的 成 本 提供 更 好 的 服务 为 目标 ， 
我 们 看 看 以 下 几 个 案例 。 


1. Valence Health: 提升 医保 结果 和 财务 状况 


Valence Health 使 用 MapR 公司 的 数据 融合 平台 (Converged Data 
Platform) 来 建立 一 个 数据 库 并 作为 公司 主要 的 数据 仓库 。Valence 每 天 从 
3 000 个 数据 输入 源 接收 45 种 不 同类 型 的 数据 。 这 些 关 键 数据 包括 实验 室 
测试 结果 、 患 者 健康 记录 、 处 方 、 疫 苗 记 录 、 药 店 优惠 、 账 单 和 付款 ， 以 
及 医生 和 医院 的 账单 ， 用 来 提升 决策 来 改善 医保 结果 和 财务 状况 。 该 公司 
快速 增长 的 客户 和 日 益 增 加 的 相关 数据 量 正在 压 垮 现 有 的 技术 基础 设施 。 

在 采用 MapR 的 解决 方案 之 前 , 如 果 收 到 一 个 数据 源 发 来 的 2 000 万 个 
实验 室 测试 结果 ， 他 们 需要 22 个 小 时 来 处 理 这 些 数据 。MapR 把 这 个 处 理 
时 间 从 22 小 时 降 到 20 分 钟 ， 并 且 使 用 更 少 的 硬件 。 


2. Liaison 科技 : 医保 行业 数据 记录 的 流 处 理 


Liaison 科技 提供 了 一 个 云端 解决 方案 来 协助 企业 集成 ， 管 理 和 安全 保 
障 它 的 数据 。 它 的 一 个 垂直 解决 方案 是 针对 医保 行业 和 生命 科学 行业 ， 这 
两 个 行业 有 两 个 挑战 : 满足 HIPAA 合 规 要 求 ; 数据 格式 及 其 展现 形式 的 多 
样 性 。 利 用 MapR 流 ， 流 处 理 将 系统 数据 记录 变 成 了 一 个 无 限 的 ， 不 可 更 
改 的 数据 转换 日 志 。 多 样 性 的 挑战 在 于 ， 一 个 患者 信息 的 记录 可 以 有 多 种 
使 用 方式 ， 即 文档 或 图 ， 或 者 是 查询 结果 。 当 然 这 取决 于 不 同 的 用 户 ， 可 
能 是 制药 公司 、 医 院 、 诊 所 或 医生 。 利 用 流 处 理 实时 地 将 数据 变化 输出 到 
MapR-DB、Hbase、MapR-DB JSON 文档 , 图 和 搜索 数据 库 。 用户 通 过 文档 、 
图 和 搜索 数据 库 可 以 得 到 最 新 的 和 最 适合 的 数据 。 此 外 ， 通 过 在 MapR 融 
合 数 据 平台 上 开发 这 一 服务 ，Liaison 可 以 保障 所 有 数据 模块 的 安全 ， 避 免 
了 其 他 方案 的 数据 和 安全 孤岛 的 问题 。 





3. Novartis Genomics 


下 一 代 基 因 测 序 (NGS) 是 一 个 经 典 的 大 数据 应 用 ， 它 面临 双重 的 挑 
战 ， 即 巨 量 原始 异 构 的 数据 ， 以 及 NGS 最 佳 实践 的 快速 变化 。 另 外 ， 许 多 
前 沿 研 究 需 要 与 外 部 组 织 的 不 同 数据 进行 大 量 的 交互 。 这 就 需要 强大 的 工 
作 流 程 工具 来 处 理 大量 的 原始 的 NGS 数据 ， 而 且 足 够 灵活 以 跟 上 快速 变化 
的 研究 技术 。 它 还 需要 一 个 方法 来 将 这 些 大 量 外 部 组 织 的 数据 有 意义 地 整 
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合 到 Novartis 的 数据 ， 如 1 000 Geomes ( 千 人 基因 组 计划 )、NIH 的 GTEx 
(Genotype-Tissue Expression， 基 因 型 组 织 表 达 ) 和 TCGA (The Cancer 
Genome Atlas， 癌 症 基 因 组 图 谱 )， 特 别 是 临床 数据 、 表 型 性 数据 、 实 验 数 
据 和 其 他 相关 数据 。 


7.2 ”国内 大 数据 应 用 经 典 秦 例 


最 早 提出 “大 数据 ”时 代 已 经 到 来 的 机 构 是 全 球 知名 咨询 公司 麦肯锡 。 
根据 麦肯锡 全 球 研究 所 的 分 析 ， 利 用 大 数据 能 在 各 行 各 业 产生 显著 的 社会 
效益 。 国 外 大 数据 技术 的 发 展 驱动 了 各 产业 的 发 展 ， 为 行业 企业 带 来 了 日 
新 月 异 的 变化 。 在 改革 开放 的 中 国 ， 高 新 尖 技 术 的 引进 ， 以 及 自身 科技 力 
量 的 增强 ， 国 家 政策 的 推动 ， 大 数据 技术 的 应 用 如 火 如 茶 的 在 祖国 广 衣 大 
地 上 推广 并 应 用 ， 取 得 了 令 人 振奋 的 成 绩 。 引 领 了 科技 革命 浪潮 ， 对 人 们 
的 生活 、 工 作 和 学 习 产 生 了 深远 的 影响 ， 并 将 持续 发 展 。 

大 数据 技术 可 以 了 解 经 济 发 展 情况 、 各 产业 发 展 情况 、 消 费 支出 和 产 
品 销售 情况 等 ， 然 后 依据 分 析 结 果 ， 科 学 地 制定 宏观 政策 ， 平 衡 各 产业 发 
展 ， 避 免 产 能 过 剩 ， 有 效 利用 自然 资源 和 社会 资源 ， 提 高 社会 生产 效率 。 
本 章节 依据 行业 典型 工作 任务 ， 结 合 读者 需求 ， 列 举 了 大 数据 在 我 国 各 行 
业 的 推广 应 用 作为 学 习 参 考 。 下 面 将 通过 对 各 个 行业 如 何 使 用 大 数据 进行 
梳理 ， 借 此 展现 大 数据 的 应 用 场景 。 


7.2.1 智慧 城市 


智慧 城市 和 大 数据 这 两 个 话题 目前 在 行业 内 十 分 火热 。 在 智慧 城市 的 
建设 中 ， 伴 随 着 我 国 国民 经 济 的 持续 快速 发 展 及 城镇 化 进程 的 加 快 ， 城 市 
的 配套 设施 建设 更 需 日 趋 完善 。 

大 数据 技术 也 能 帮助 政府 进行 支出 管理 ， 透 明 合理 的 财政 支出 将 有 利 
于 提高 公信 力 和 监督 财政 支出 。 大 数据 及 大 数据 技术 带 给 政府 的 不 仅仅 是 
效率 提升 、 科 学 决策 、 精 细 管 理 ， 更 重要 的 是 数据 治国 、 科 学 管理 的 意识 
改变 ， 未 来 大 数据 将 会 从 各 个 方面 来 帮助 政府 实施 高 效 和 精细 化 管理 ， 具 
有 极 大 的 想象 空间 。 

如 今 ， 世 界 人 口 城镇 化 ， 目 前 世界 已 有 一 半 的 人 口 居住 在 城镇 中 ， 到 
2050 年 这 一 数字 会 增长 到 75%。 城市 公共 交通 规划 、 教 育 资源 配置 、 医 疗 资 
源 配置 、 商 业 中 心 建 设 、 房 地 产 规划 、 产 业 规划 、 城 市 建设 等 都 可 以 借助 于 
大 数据 技术 进行 良好 的 规划 和 动态 调整 。 使 城市 里 的 资源 得 到 合理 的 良好 配 
置 ， 有 效 帮 助 政府 实现 资源 科学 配置 ， 精 细 化 运营 城市 ， 打 造 智慧 城市 。 
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例 7-1 某 省 某 区 智慧 项 目的 建设 。 

现状 分 析 : 自 2003 年 首次 建设 政府 门户 网 站 开始 ，X X 区 各 部 门 在 政 
务 信息 化 以 及 信息 基础 设施 等 方面 进行 了 有 益 实践 ， 为 “智慧 X X ”建设 
莫 定 了 良好 基础 。 


1. 现 有 基础 


)“ 六 个 统一 ”为 “智慧 xX X ”统筹 规划 建设 奠定 基础 

es 2014 年 《XX 区 智慧 政府 规划 (2014 一 2017)》 提 出 的 “六 个 统 

一 ”要 求 ， 目 前 已 完成 了 “统一 网 络 机 房 ” 和 “统一 政府 门户 网 站 ”建设 ， 
正在 推进 “统一 电子 地 图 ”“ 统 一 资源 数据 库 ”“ 统 一 办 公平 台 ” 建 设 。 在 
电子 信息 中 心 成 立 后， 将 尽快 实现 “统一 建设 管理 ”要 求 。 

(1) 统一 电子 地 图 。 按 照 全 市 统一 要 求 ,“ 数 字 化 城市 管理 监督 指挥 系 
统 ” 和 在 建 的 “城市 网 格 化 综合 管理 平台 ” 均 在 市 规划 局 电子 地 图 上 进行 
开发 。 下 一 步 ， 将 建设 全 区 统一 的 电子 地 图 平台 ,今后 “智慧 X Xx ”应 用 
项 目 涉及 电子 地 图 ， 均 在 统一 的 电子 地 图 平台 上 进行 琶 加 。 

(2) 统一 资源 数据 库 。 作 为 “智慧 x x ”基础 设施 建设 的 重要 部 分 ， 
要 积极 推进 “统一 资源 数据 库 ” 建 设 。 一 是 以 “城市 网 格 化 综合 信息 平台 ” 
建设 为 契机 ， 梳 理 全 区 已 有 信息 资源 ， 初 步 建立 全 区 “统一 的 公共 基础 数 
据 库 ” 二 是 整合 “平安 X XxX、 数字 城管 、 网 吧 监 控 、 中 小 学 校 监控 ”等 系 
统 建设 的 “视频 ”资源 ， 建 立 全 区 统一 的 “视频 资源 库 ” 三 是 逐步 积累 “ 智 
慧 XX” 应 用 项 目 产 生 的 数据 ， 与 “市 政务 云 数 据 中 心 ” 进 行 对 接 ， 通 过 
合作 与 开放 相 结合 的 方式 ， 不 断 充 实数 据 库 ， 建 立 “物理 分 散 、 届 辑 集中 ” 
的 XX 区 “公共 业务 数据 库 ” 和 “公共 服务 数据 库 ”， 建 立 X X 区 大 数据 中 
心 ， 服 务 于 “智慧 xX xX” 应 用 。 

(3) 统一 建设 管理 。 已 经 制定 了 《关于 加 强 电子 政务 项 目 管理 的 通知 》 
和 《关于 加 强 政务 网 络 安全 管理 的 通知 》 统筹 智慧 项 目 ， 统 一 互联 网 出 
终端 准 入 ， 避 免 重 复 建设 ; 今后 要 根据 “智慧 x Xx” 建设 进度 出 台 相应 的 
配套 制度 ， 加 强 资 源 共 享 和 安全 管理 。 

创新 驱动 环境 为 “智慧 xX X ”建设 提供 内 生动 力 ， 包 括 科 技 创新 能 力 
不 断 提升 ， 高 新 技术 产业 提 质 增 效 ， 创 新 服务 体系 建设 稳步 推进 。 

2) 面临 的 问题 与 挑战 

当前 ， 国 内 智慧 城市 建设 总 体 尚 处 于 试点 探索 阶段 ， 尽 管 “ 智 慧 X X” 
具备 了 良好 基础 ， 但 仍 处 于 起 步 阶 段 。 通 过 综合 分 析 智 慧 城市 试点 经 验 ， 
结合 区 现状 ， 学 者 认为 “智慧 X X ”建设 面临 如 下 问题 与 挑战 。 

(1) 缺乏 顶层 引领 ， 建 设 处 于 相对 无 序 状 态 。 智 慧 城市 是 技术 与 管理 
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的 高 度 融合 ， 有 其 独特 的 理念 和 规律 。 许 多 城市 完全 依靠 企业 提出 解决 方 
案 ， 但 许多 企业 能 力 良 劳 不 齐 ， 对 城市 管理 系统 理解 不 全 ， 导 致 技术 与 管 
理 脱 节 ， 形 成 许多 “ 伪 智 慧 "“ 空 智慧 "。 这 将 是 “智慧 xX X ”建设 中 必须 
努力 克服 的 问题 。 

(2) 缺乏 统筹 协调 ， 智 慧 应 用 项 目 相 对 分 散 。 各 部 门 在 感知 设施 (如 
视频 监控 )、 应 用 平台 《〈 网 站 、 微 信 ) 等 智慧 应 用 项 目 建设 方面 以 实现 部 门 
需求 为 主 ， 导 致 建设 内 容重 复 、 应 用 相对 分 散 。 

(3) 缺乏 规范 标准 ， 数 据 整合 共享 难度 较 大 。 一 方面 ， 区 尚未 建成 以 
政务 云 为 基础 的 公共 数据 库 平 台 和 公共 信息 平台 ， 资 源 无 处 整合 ， 造 成 不 
断 重 复 建设 “信息 孤岛 ” 另 一 方面 ， 市 级 应 用 平台 与 区 和 街道 应 用 平台 数 
据 结构 不 对 称 ， 导 致 数据 整合 共享 困难 。 

(4) 缺乏 配套 机 制 ， 运 维 管理 体系 建设 有 待 跟 进 。 目 前 ， 区 许多 智慧 
应 用 项 目 已 陆续 建设 并 投入 使 用 ， 从 技术 层面 来 看 ， 基 本 能 满足 应 用 需求 。 
但 是 ， 由 于 与 应 用 相配 套 的 运 维 管理 体系 尚 不 健全 ， 如 组 织 领导 机 制 、 运 
行 管理 机 制 、 评 估 监 督 机 制 以 及 后 期 维护 模式 等 ， 造 成 项 目 建 成 后 使 用 率 
低 ， 效 果 不 佳 。 

(5) 缺乏 保障 措施 ， 政 府 信息 资源 面临 安全 挑战 。 在 智慧 城市 建设 过 
程 中 涉及 公民 隐私 的 数据 大 量 聚 集 到 政府 数据 中 心 后 ， 由 于 安全 保障 技术 
投入 不 足 ， 人 员 安全 缺乏 意识 ， 信 息 网 络 安全 问题 更 加 突出 。 

(6) 建设 主体 单一 ， 社 会 共 建 模式 有 待 探索 加 强 。“ 智 慧 XX ”是 一 个 
涉及 政治 、 经 济 、 金 融 、 社 会 等 多 方面 的 复杂 系统 ， 从 国内 智慧 城市 试点 
情况 来 看 ， 建 设 投入 基本 上 以 政府 为 主 ， 导 致 政府 财力 不 堪 重 负 、 责 任 无 
限 放 大 。 因 此 ， 在 顶层 设计 中 应 积极 探索 智慧 城市 建设 的 PPP 模式 。 


2. 建设 原则 


根据 《国家 新 型 城镇 化 规划 (2014 一 2020)》 提 出 的 “智慧 城市 ”建设 
方向 和 《关于 开展 智慧 城市 标准 体系 和 评价 指标 体系 建设 及 应 用 实施 的 指 
导 意 见 》 提 出 的 “智慧 城市 ”评价 标准 ， 结 合 我 区 实际 ， 提 出 “智慧 多 义 ” 
建设 方案 整体 思路 坚持 “规划 设计 、 感 知 设施 、 应 用 平台 、 数 据 资 源 ” 四 
位 一 体 建设 思路 以 及 具体 要 求 。 建 设 整体 框架 是 在 国家 智慧 城市 建设 总 体 
框架 的 指导 下 设计 的 ， 由 “7+2” 构 成 。“7” 是 指 : 感知 层 、 网 络 层 、 公 共 
设施 层 、 数 据 层 、 交 换 层 、 智 慧 应 用 和 用 户 层 。“2” 是 指 : 安全 与 保障 体 
系 、 运 营 与 管理 体系 。 某 省 某 区 的 “智慧 X X ”架构 图 如 图 7-1 所 示 。 


3.“ 智 慧 x x ”一 期 建设 内 容 (“3211+N”) 
智慧 城市 的 基础 是 数据 ， 本 质 是 服务 “智慧 X X ”建设 将 充分 发 挥 现 
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图 7-1 某 区 “智慧 x x ”架构 图 


有 基础 优势 ， 牢 牢 抓 住 数 据 节点 和 服务 对 象 ， 并 将 以 “两 级 指挥 中 心 、 一 
个 微 信 平 台 ” 建 设 为 突破 口 推动 “智慧 X X ”一 期 建设 , 具体 包括 “3211+N” 
建设 内 容 ， 内 容 如 图 7-2 所 示 。 

“3” 指 的 是 要 尽快 建成 “政务 云 平 台 ”“ 公 共 数 据 库 平台 ”和 “公共 信 
息 平台 ”3 个 智慧 政务 公共 基础 设施 ;“2” 指 的 城市 网 格 化 指挥 中 心 综合 管 
理 平台 和 “一 门 式 ” 公 共 服 务 综合 信息 平台 ; 第 一 个 “1” 指 的 是 以 “智慧 
X xX。 微 信 平 台 ” 为 切入 点 打造 1 个 “XX 区 区 级 移动 互联 网 综合 服务 平 
台 ” 第 二 个 “1” 指 的 是 成 立 1 个 “智慧 xX xX” 建设 和 维护 管理 中 心 ;“N” 
是 指 分 类 分 批 推 进 N 个 智慧 应 用 项 目 实施 。 





7.2.2 ”保险 行业 


保险 数据 主要 是 围绕 产品 和 客户 进行 的 ， 典 型 的 有 利用 用 户 行为 数据 
来 制定 车 险 价格 ， 利 用 客户 外 部 行为 数据 来 了 解 客户 需求 ， 向 目标 用 户 推 
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| “智慧 xx” 建设 和 维护 管理 平台 1 个 中 心 
[ “智慧 xx” 微 信 平 台 1 个 微 信 
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街道 “一 门 式 街道 网 民生 ， 智 慧 产 业 ) 
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政务 云 平台 
图 7-2 某 区 “智慧 x x ”一 期 建设 简 图 


荐 产品 。 例 如 ， 依 据 个 人 数据 、 外 部 养车 APP 数据 ， 为 保险 公司 找到 车 险 
客户 ; 依据 个 人 数据 、 移 动 设备 位 置 数据 ， 为 保险 企业 找到 商旅 人 群 ， 推 
销 意外 险 和 保障 险 ， 依 据 家 庭 数 据 、 个 人 数据 、 人 生 阶段 信息 ， 为 用 户 推 
荐 财产 险 和 寿险 等 。 用 数据 来 提升 保险 产品 的 精算 水 平 ， 提 高 利润 水 平和 
投资 收益 。 

我 国保 险 行业 莲 勃 发 展 ， 在 具有 巨大 的 商业 利益 的 同时 ， 也 面临 不 少 
的 困难 。 

(1) 数据 多 ， 整 合 困难 。 数 据 的 来 源 多 样 性 ， 数 据 的 类 型 的 复杂 性 ， 
数据 特征 的 多 元 化 ， 数 据 的 处 理 方法 的 差异 化 ， 组 织 内 部 的 数据 的 分 散 性 
以 及 数据 共享 机 制 的 缺乏 等 。 

(2) 客户 多 ， 分 析 困 难 。 怎 么 识别 客户 的 全 方位 的 特征 ， 怎 样 有 效 细 
分 客户 ， 怎 样 提取 客户 的 共同 需求 ， 怎 样 利 用 不 同 的 模型 /算法 生成 客户 的 
多 样 化 标签 以 及 怎样 进行 客户 行为 偏好 分 析 。 

(3) 需求 多 ， 应 用 困难 。 如 何 与 客户 实时 交互 ， 如 何 及 时 响应 客户 的 
需求 ， 如 何 提供 满意 的 客户 体验 ， 如 何 降低 客户 流失 ， 如 何 控制 客户 维护 
成 本 以 及 如 何 对 客户 进行 精准 营销 等 。 

智慧 保险 是 以 大 数据 技术 平台 作为 支撑 ， 对 用 户 行为 偏好 数据 ， 利 用 
大 数据 分 析 技 术 和 工具 对 保险 企业 客户 进行 建 模 ， 包 括 建立 客户 细 分 模型 、 
客户 价值 模型 、 忠 诚 度 模型 、 受 众 群体 扩展 模型 以 及 社会 模型 。 通 过 分 析 
结果 进行 客户 的 获取 ， 对 客户 进行 服务 和 转化 ， 以 达到 提升 业务 量 和 业务 
转型 的 目的 。 
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(1) 客户 细 分 模型 。 对 客户 进行 分 类 ， 挖 掘 有 价值 客户 ， 提 升 非 付费 
到 付费 客户 的 转化 率 。 

(2) 客户 价值 模型 。 精 准 营 销 ， 不 存在 错误 的 客户 ， 只 存在 错误 的 宣传 。 

(3) 客户 忠诚 度 模型 。 针 对 不 同类 型 的 用 户 采 用 不 同 的 营销 策略 。 

(4) 受众 群体 的 扩散 模型 。 筛 选 最 具 购 买 的 客户 名 单 。 

(5) 社会 模型 。 引 流 同 时 重新 建立 失 联 客户 。 

典型 案例 : 

泰康 保险 使 用 大 数据 进行 数据 采集 和 数据 统计 分 析 项 目 
泰康 人 寿 芝 勃发 展 ， 业 务 量 壮 大 ， 客 户 量 激 增 ， 却 面临 以 下 问题 : 

如 何 使 用 用 户 数据 ? 如 何 了 解 客户 、 经 营 客户 ? 如 何 建 立 情感 链接 、 
实现 有 效 互 动 ， 如 何 为 客户 打造 个 性 化 的 服务 和 产品 ? 如 何 增强 客户 黏 性 、 
提升 客户 满意 度 ? 如 何 扩 大 保险 覆盖 面 、 提 升 保险 渗透 率 ? 

经 过 分 析 ， 大 数据 公司 为 泰康 人 寿 公 司 提出 以 下 解决 方案 ， 如 图 7-3 
所 示 。 








用 户 行为 采集 用 户 偏好 分 析 
人 事实 标签 
0 

用 户 行为 分 析 消费 者 兴趣 图 谱 分 析 
1 预测 标签 
网 站 数据 统计 分 析 实时 购物 意图 分 析 


7-3 ”保险 大 数据 解决 方案 


用 户 行为 采集 模块 。 通 过 传统 PC 站 点 、 手 机 WAP 站 点 、 手 机 App 站 
点 、 移 动 端 微 信 等 方式 对 用 户 PV、UV 活跃 度 进行 统计 ， 分 析 各 个 保险 产 
日 浏览 量 、 趋 势 、 客 户 兴趣 度 、 转 化 率 等 指标 。 

拉 通 用 户 数据 模块 。 整 合 所 有 接触 点 的 用 户 数据 ， 整 合用 户 所 有 的 标 
志 ， 多 源 异 构 整 合 到 统一 标准 ， 精 确定 义 用 户 标 签 。 

用 户 行为 分 析 模 块 。 分 析 客 户 的 生命 周期 ， 用 户 分 类 详情 ， 回 流 用 户 
分 析 ， 新 增 、 沉 默 、 活 跃 、 流 失 用 户 分 析 ， 留 存 用 户 分 析 。 

网 站 数据 统计 分 析 模 块 。 页 面 浏览 量 分 析 ， 分 时 统计 ， 用 户 来 源 统计 。 

在 使 用 该 系统 之 后 ， 可 以 归纳 出 高 价值 客户 群体 特征 ， 从 现 有 客户 中 
挖掘 有 潜力 的 客户 ， 使 其 转化 为 高 价值 客户 ; 通过 分 析 付费 客户 和 非 付费 
客户 两 个 群体 的 差异 特征 ， 并 从 非 付费 客户 中 寻找 符合 付费 客户 的 特征 ， 
针对 性 的 销售 以 提升 转化 率 ; 个 性 化 推荐 就 是 在 合适 的 时 间 ， 以 最 恰当 的 
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方式 ， 向 客户 推荐 或 营销 他 最 需要 的 产品 或 者 服务 ， 从 而 提升 工作 效率 ， 
业务 迅速 增长 。 


7.2.3 智慧 医疗 


智慧 医疗 英文 简称 WIT120， 是 最 近 兴 起 的 专 有 医疗 名 词 ， 通 过 打造 健 
康 档案 区 域 医疗 信息 平台 ， 利 用 最 先进 的 物 联网 技术 ， 实 现 患者 与 医务 人 
员 、 医 疗 机 构 、 医 疗 设备 之 间 的 互动 ， 逐 步 达到 信息 化 。 人 工 智能 的 最 大 
特点 就 是 高 效 的 计算 和 精准 的 分 析 与 决策 ， 这 一 点 刚好 击 中 现在 的 医疗 痛 
点 ， 或 能 从 根本 上 解决 医疗 资源 供不应求 的 局 面 。 

“人 工 智 能 可 以 为 医生 提供 完整 和 有 效 的 信息 ， 从 而 为 疾病 的 诊断 和 治 
疗 提供 科学 、 可 靠 的 依据 。” 中 国 工程 院 院士 刘 昌 孝 对 记者 表示 ， 人 工 智 能 
可 以 极 大 提高 医学 数据 的 测定 和 分 析 过 程 的 自动 化 程度 ， 从 而 大 大 提高 工 
作 的 速度 ， 减 轻 医生 的 工作 强度 和 减少 主观 随意 性 。 

人 工 智 能 还 可 通过 图 形 识别 在 影像 识别 方面 发 挥 价值 。 受 康 集团 创始 
人 、 董 事 长 兼 CEO 张 黎 刚 表 示 ， 通 过 CT 进行 肺癌 筛 查 后 会 发 现 很 多 小 结 
节 ， 现 在 都 是 根据 放射 科 医 生 的 经 验 来 判断 是 恶性 还 是 良性 ， 但 只 要 是 人 工 
判断 就 可 能 会 出 错 。 人 工 智能 则 可 以 根据 已 经 确诊 癌症 的 患者 前 几 年 的 CT 
片子 来 建立 自我 学 习 的 模型 ， 之 后 就 可 以 判断 各 种 结 节 到 底 是 不 是 肺癌 。 

人 工 智能 的 确 能 为 智慧 医疗 产业 带 来 足够 的 惊喜 ， 不 过 ， 目 前 国内 还 
没有 一 款 医疗 领域 的 人 工 智能 产品 得 到 国家 食品 药品 监督 管理 局 的 批准 ， 
相关 收费 也 没有 进入 医保 目录 ， 人 工 智能 对 于 国内 医疗 行业 来 说 仍然 是 新 
兴 事 物 ， 带 来 客观 性 和 便捷 性 的 同时 ， 需 要 与 现 有 的 医疗 模式 一 同 经 历 “ 磨 
合 期 ”。 

由 于 医疗 中 的 数据 问题 比比 缘 是 ， 专 家 们 也 提出 在 医疗 领域 实施 机 器 
学 习 时 的 一 些 担心 :“ 一 是 学 习 训练 应 用 人 工 智 能 “专业 数据 库 ” 的 缺乏 ; 
二 是 管理 科学 操作 性 ， 如 在 隐私 伦理 、 记 录 识 别 、 健 康 数据 保险 流通 等 问 
题 很 难 实现 合法 性 。” 

在 技术 层面 ， 人 工 智能 在 用 于 获取 信息 的 设备 上 还 存在 较 大 的 发 展 空 
间 。 比 如 基因 组 信息 ， 目 前 基本 上 还 依赖 大 型 的 测序 仪器 ， 个 人 甚至 部 分 
医院 都 无 法 独立 开展 测序 操作 。 不 过 ， 他 认为 未 来 随 着 医疗 领域 对 人 工 智 
能 认可 度 和 配合 度 的 进一步 提高 以 及 人 工 智 能 算法 在 容错 性 方面 的 改进 ， 
上 述 情况 应 该 会 得 到 改善 。 

在 医疗 行业 中 ， 以 同样 或 更 低 的 成 本 来 提升 患者 的 治疗 结果 对 于 任何 
医疗 机 构 来 说 都 是 非常 大 的 生意 ， 在 美国 ， 人 们 花 在 医保 的 总 体 费 用 在 以 
15% 的 速度 高 速 增长 。 全 面 的 数字 化 转型 是 实现 这 一 目标 的 关键 ， 数 字 化 、 
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增强 的 通信 和 大 数据 分 析 是 支持 转型 的 重要 工具 。 

到 医院 看 病 常常 要 面 对 “ 三 长 一 短 ”“ 三 长 一 短 ” 是 “看 病 难 ” 的 流 
行 说 法 ， 即 挂号 、 候 诊 、 收 费 队伍 长 ， 看 病 时 间 短 。 同 时 ， 患 者 看 病 时 很 
多 人 都 需要 做 CT、 磁 共振 、B 超 ， 一 家 中 等 以 上 医院 每 一 天 都 有 上 千张 新 
的 图 文 影响 资料 生成 ， 这 些 影像 资料 会 占据 医院 的 绝 大 部 分 存储 资源 。 医 
院 上 线 的 “ 云 存储 ”系统 打破 了 以 往 的 数据 存储 瓶颈 。 

在 未 使 用 “ 云 存储 ”系统 以 前 ， 患 者 的 影像 资料 都 由 病人 自行 保存 ， 
很 多 患者 在 第 二 次 来 院 治疗 时 经 常会 忘记 携带 前 面 的 影像 资料 ， 又 或 者 是 
因为 保存 不 当 ， 片 子 的 分 辨 率 降低 ， 甚 至 于 丢失 前 面 的 影像 资料 ， 增 加 患 
者 的 治疗 时 间 和 经 费 。 

随 着 城市 医疗 业 的 快速 发 展 和 数字 医疗 进程 的 推进 ， 医 院 数 据 量 已 呈 
现 出 爆发 式 的 增长 。 嘉 兴 市 第 一 医院 每 日 新 生成 的 影像 资料 数量 就 从 2011 
年 医院 整体 搬迁 时 的 约 30GB/ 日 增长 到 了 60GB/ 日 .为 了 给 每 日 新 产生 数据 
预 留 存储 空间 ， 医 院 不 得 不 将 生成 日 期 超过 3 天 的 影像 数据 上 传 到 放射 科 
服务 器 ， 将 超过 3 个 月 的 通过 移动 硬盘 备份 后 转 存 ， 如 果 有 医生 或 患者 在 
此 期 间 需 要 查看 原来 的 影像 资料 ， 过 程 会 很 费时 费力 。 

如 果 技 术 上 没有 创新 ， 医 院 就 只 能 一 次 又 一 次 地 在 购买 存储 设备 上 做 
出 投入 。 然 而 ， 这 样 的 做 法 并 不 能 从 根本 上 缓解 影像 数据 生成 和 存储 上 的 
供应 失衡 。2017 年 ， 医 院 决定 引入 “ 云 存储 ”系统 ， 借 助 互 联网 大 数据 的 
信息 处 理 方式 打破 以 往 的 存储 容量 的 界限 ， 为 患者 保存 完整 的 影像 资料 。 

2017 年 5 月 21 日 ,“ 云 存储 ”系统 正式 启用 。 截 至 2017 年 6 月 1 日 ， 
系统 已 成 功 上 传 5TB 的 原始 影像 数据 ， 相 当 于 该 院 “ 搬 家 ”后 所 有 已 存储 
的 原始 影像 数据 量 的 116。 剩 下 的 原始 数据 , 将 在 3 个 月 内 全 部 转 存 至 云端 。 
等 全 院 的 业务 打通 后 ， 所 有 新 生成 的 影像 数据 也 将 实时 上 传 到 云端 ， 自 从 
有 了 “ 云 存 储 ”， 医 院 的 存储 能 力 打破 了 空间 的 限制 ， 上 传 和 下 载 的 时 间 都 
得 到 了 大 大 缩短 。 今 后 该 院 还 将 尝试 在 “ 云 存储 ”里 建立 患者 的 “个 人 影 
像 档案 ”， 将 患者 在 市 各 级 各 类 医疗 机 构 的 影像 资料 都 共享 进 这 份 “个 人 影 
像 档 案 ” 中 ， 使 之 成 为 个 人 健康 档案 的 一 部 分 。 在 技术 成 熟 后 ， 患 者 可 以 
借助 计算 机 、 手 机 等 设备 通过 互联 网 来 共享 在 医院 检查 的 所 有 影像 资料 ， 
进一步 优化 患者 的 服务 体验 。 


7.2.4 ”交通 大 数据 


近 几 年 来 ， 我 国 多 省 已 经 建设 了 以 大 数据 为 基础 、“ 互 联网 +” 为 上 层 
应 用 的 智慧 交通 大 数据 平台 ， 用 于 解决 城市 道路 拥挤 ， 提 高 行车 安全 和 运 
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输 效 率 。 本 节 将 通过 云 创 大 数据 在 河北 实现 的 交通 卡 口 数据 分 析 系 统 为 例 ， 
探讨 大 数据 在 智慧 交通 中 的 实现 。 


1. 简介 


河北 交通 卡 口 数 据 研判 分 析 系 统 充分 利用 交管 局 卡 口 系统 建设 成 果 ， 
将 各 卡 口 采集 的 车 辆 号 牌 基础 数据 实时 传送 到 公安 网 内 ， 整 合 各 类 警 务 信 
息 资源 ， 通 过 集中 整合 整理 、 海 量 关 联 查询 、 多 维 智能 比 对 、 综 合 分 析 研 
判 、 信 息 对 流 互 动 等 ， 供 情报 中 心 实现 对 被 盗 抢 机 动车 、 涉 案 嫌疑 机 动车 、 
交通 後 事 逃 逸 车 辆 、 重 点 管控 车 辆 等 黑 名 单车 辆 的 实时 查 控 和 对 “人 、 案 、 
车 ”的 研判 分 析 ， 实 现 科 技 强 警 ， 向 科技 要 警力 的 目标 ， 对 “护城河 ” 工 
程 和 全 省 治安 防 控 体系 进行 补充 和 完善 ， 实 现 网 上 作战 、 智 能 分 析 等 现代 
警 务 机 制 的 创新 发 展 。 


2. 设计 原则 


1) 前 瞻 性 技术 与 实际 应 用 环境 相 结合 

该 系统 把 握 技术 正确 性 和 先进 性 是 前 提 ， 但 是 前 瞻 性 技术 实施 必须 在 
云 计 算 平 台 的 实际 应 用 环境 和 实际 监控 流量 的 基础 上 进行 ， 必 须 结合 云 计 
算 平 台 的 实际 情况 进行 研究 和 开发 ， 只 有 与 实际 应 用 环境 相 结合 才 有 实际 
应 用 价值 。 

2) 学 习 借 鉴 国外 先进 技术 与 自主 创新 相 结合 

在 云 计算 平 台 用 于 超大 规模 数据 处 理 方面 ， 国 内 外 几乎 是 在 一 个 起 跑 
线 上 ; 但 在 关键 技术 研究 及 既往 的 技术 积累 方面 ， 国 外 一 些 大 公司 有 着 明 
显 的 优势 。 同 时 ， 云 平台 将 要 面 对 的 交通 监控 数据 流 高 达 300 万 条 /天 ， 是 
一 个 世界 级 的 云 计算 应 用 。 

3. 系统 基本 组 成 和 构架 

从 系统 基本 组 成 与 构架 来 看 ， 该 共享 平台 由 7 个 主要 部 分 组 成 : 历史 
数据 汇总 处 理 系统 、 数 据 上 报 系统 、 实 时 数据 入 库 系 统 、 交 管 数据 存储 系 
统 、 交 管 数据 查询 分 析 应 用 系统 、 数 据 管理 系统 及 系统 管理 。 


在 基础 设施 构架 上 ， 该 系统 将 构建 在 云 计 算 平台 之 上 ， 利 用 现 有 的 计 
算 资源 、 存 储 资源 和 网 络 资源 ， 作 为 云 平台 的 基础 设施 和 支撑 平台 。 


4. 系统 架构 


基于 以 上 基本 的 系统 组 成 和 构架 ， 系 统 的 详细 总 体 构架 和 功能 模块 设 
计 如 图 7-4 所 示 。 
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7-4 ”交通 云 平台 总 体 架构 与 功能 模块 图 


图 7-4 中 ， 自 底 向 上 分 为 5 个 层面 。 

1) 硬件 平台 层 

硬件 平台 层 将 使 用 云 计算 中 心 所 提供 的 计算 、 存 储 和 网 络 资 源 。 从 系 
统 处 理 的 角度 看 ， 这 一 层 主要 包括 云 存 储 集群 、 综 合 分 析 计 算 集 群 、 接 口 
与 服务 管理 器 。 

2) 系统 软件 层 

系统 软件 层 位 于 倒数 第 2 层 ， 包 括 移动 云 存储 系统 、 综 合 分 析 云 计算 
软件 平台 、Web 服务 器 。 云 存储 系统 将 提供 基于 MySQL 关系 数据 库 的 结构 
化 数据 存储 访问 能 力 ， 以 及 基于 HDFS 的 分 布 式 文件 系统 存储 访问 能 力 ， 
分 别提 供 基于 JDBC/SQL 的 数据 库 访问 接口 ， 以 及 HDFS 访问 接口 。 综 合 
分 析 云 计算 软件 平台 可 提供 对 HDFS、 数据 立方 的 访问 , 并 提供 MapReduce 
编程 模型 和 接口 ， 以 及 非 MapReduce 模型 的 编程 接口 、 用 于 实现 并 行 计 算 
任务 负载 均衡 和 服务 器 单 点 失效 恢复 的 ZooKeeper。 

3) 云 平 台中 的 数据 层 

数据 层 位 于 倒数 第 3 层 ， 包 括 原始 交管 数据 、 索 引 数据 、 用 于 分 析 的 
中 间 数 据 及 系统 配置 数据 等 。 其 中 ， 原 始 交管 数据 、 索 引 数据 等 海量 数据 
将 存储 在 云 存储 系统 的 分 布 式 文件 系统 (HDFS) 中 , 用 HDFS 接口 进行 存 
储 和 访问 处 理 ， 而 其 他 用 于 分 析 的 中 间 数 据 等 数据 量 不 大 ， 但 处 理 响应 性 
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能 要 求 较 高 的 数据 ， 将 存储 在 云 存 储 系统 的 关系 数据 库 系 统 中 ， 用 
JDBC/SQL 进行 存储 和 访问 处 理 。 

4) 交管 数据 处 理 软件 层 

交管 数据 处 理 软件 层 位 于 倒数 第 4 层 ， 主 要 完成 云 平台 所 需要 提供 的 
诸多 功能 ， 包 括 实时 监控 、 报 警 监 控 、 车 辆 轨迹 查询 与 回放 、 电 子 地 图 、 
报警 管理 、 布 控 管 理 、 设 备 管理 、 事 件 检测 报警 、 流 量 统计 和 分 析 、 系 统 
管理 等 功能 。 

5) 客户 端 用 户 界面 软件 

客户 端 位 于 最 上 层 ， 主 要 供用 户 查 询 和 监视 相关 的 数据 信息 ， 除 了 事 
件 检测 报警 不 需要 用 户 界面 外 ， 其 他 部 分 都 需要 实现 对 应 的 用 户 界面 。 


5. 交管 卡 口 数据 入 库 功 能 与 处 理 方案 
交管 卡 口 数据 入 库 系统 总 架构 如 图 7-5 所 示 。 
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7-5 ”交管 卡 口 数 据 入 库 系统 总 架构 图 








云 平 台 通过 实时 卡 口 数据 入 库 系统 接 入 采集 层 的 交管 数据 ， 数 据 分 配 
进入 负载 均衡 机 ， 负 载 均衡 机 根据 集群 各 节点 负载 情况 ， 动 态 分 配 交 管 数 
据 到 各 存储 处 理 机 ， 进 行 报警 检测 、 建 立 索引 等 处 理 ， 同 时 将 交管 数据 存 
入 分 布 式 存储 系统 。 

负载 均衡 机 功能 : 监控 所 集群 机 器 负载 情况 ， 动 态 分 配 交管 数据 。 

控 所 有 集群 机 器 ， 如 果 发 现 问题 ， 那 么 就 把 分 配给 这 人 台 机 器 的 de 
新 分 配 到 其 他 机 器 ， 去 除 单 点 故障 ， 提 高 系统 可 靠 性 。 

负载 均衡 机 采用 Paxos 算法 解决 一 致 性 问题 ,集群 在 某 一 时 刻 只 有 一 个 
Master 负责 均衡 能 力 ， 当 Master 宕 机 后 ， 其 他 节点 重新 选举 Master。 保 证 
负载 均衡 机 不 会 存在 单 点 问题 ， 集 群 机 器 一 致 性 。 

实时 业务 :对 于 实时 性 要 求 高 的 业务 应 用 ， 如 实时 监控 、 实 时 报警 ， 
走 实 时 专 道 。 


6. 数据 存储 功能 与 处 理 方案 
数据 存储 系统 架构 如 图 7-6 所 示 。 
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四 7-6 ”数据 存储 系统 架构 图 
数据 存储 系统 提供 如 下 功能 。 
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中 交管 数据 处 理 : 接收 来 自 数据 汇总 和 数据 入 库 系统 的 交管 数据 ， 索 
引 模块 实时 生成 索引 ， 以 提高 查询 速度 。 生 成 的 索引 存储 到 HDFS 中 ， 以 
供 查 询 交管 数据 使 用 。 

@ 专题 业务 分 析 , 通过 MapReduce 并 行 计算 , 同期 提取 业务 数据 ,将 
结果 分 存 两 路 : 一 路 存 入 数据 立方 (DataCube) 或 日 志 详 单 存 储 ， 另 一 路 
存 入 关系 型 数据 库 。 

@ 报警 数据 处 理 : 云 平台 对 接收 到 的 实时 交管 卡 口 数 据 进行 计算 ， 以 
判断 这 辆 车 是 否 符合 报警 条 件 。 如 果 符合 ， 会 对 报警 信息 入 库 ， 并 同时 通 
过 对 外 实时 报警 的 接口 ， 将 报警 信息 迅速 展示 到 用 户 界面 上 。 


7. 查询 分 析 功能 与 处 理 方案 
交管 卡 口 数据 架构 如 图 7-7 所 示 。 







:| | [CE | CE | 
: 由 竹 :| Ces | ;; 


本 让 















| 交管 数据 接 入 | 
图 7-7 交管 卡 口 数据 架构 图 
当 客 户 发 起 请 求 后 ， 客 户 端 把 请 求 发 向 查询 接口 服务 器 ， 查 询 接 口 
服务 器 解析 查询 请 求 ,然后 向 Master 任务 调度 机 发 送 查 询 任务 执行 命令 ; 
Master 回应 执行 命令 节点 信息 ， 查 询 服务 器 根据 节点 信息 将 查询 命令 发 
向 查询 计算 模块 ， 进 行 具 体 查询 操作 ， 将 查询 结果 返回 给 客户 端 ， 呈 现 
给 用 户 。 
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8. 项 目 成 果 


该 系统 为 河北 省 公安 厅 卡 口 数 据 分 析 系统 实现 了 若干 建设 成 果 。 

口 全 省 卡 口 数 据 集中 于 统一 的 公安 业务 管理 平台 ， 便 于 省 厅 对 全 省 
车 辆 流动 状况 情报 进行 宏观 掌控 。 

口 ”提供 车 辆 参数 条 件 多 维 查 询 ， 实 现 高 速 精确 查找 在 任意 时 段 途 经 
任意 卡 口 任意 车 辆 图 片 数 据 。 

口 卡 口 数据 库 内 实时 检测 到 符合 侦查 条 件 车 辆 数据 入 库 ， 将 自动 提 
供 报警 提示 。 

口 综合 全 省 卡 口 数据 ， 轻 松 实现 针对 特定 车 辆 的 移动 轨迹 分 析 和 追 
溯 ， 如 套 牌 车 辆 、 嫌 疑 车 辆 的 追踪 侦查 等 。 

口 避免 了 数据 入 库 效率 不 足 而 产生 的 堆积 现象 ， 极 大 地 提高 了 业务 
系统 的 工作 效率 。 

口 ”彻底 解 决 硬件 设备 故障 率 带 来 的 数据 安全 隐患， 保障 重要 业务 数 
据 的 高 可 用 性 和 业务 的 连续 性 。 

口 采用 X86 架构 服务 器 集群 构建 的 云 存储 和 处 理 平台 ， 比 传统 的 小 
型 机 加 商用 数据 库 方案 节省 10 倍 左右 的 成 本 ， 并 具备 良好 的 兼容 
扩展 性 。 


7.2.5 “环境 大 数据 


近年 来 ， 伴 随 着 互联 网 技术 和 物 联 网 技术 的 迅猛 发 展 ， 环 境 信息 化 进 
入 了 高 速 发 展期 。 国 家 环保 部 门 非常 重视 大 数据 应 用 ，2016 年 年 初 环保 部 
审议 通过 的 《生态 环境 大 数据 建设 总 体 方案 》 就 是 一 个 明证 。 方 案 对 生态 
环境 大 数据 的 建设 和 应 用 提出 明确 要 求 ， 并 准备 通过 积极 建设 环境 数据 服 
务 和 环保 云 平台 ， 以 及 借助 大 数据 分 析 来 推进 空气 质量 的 监测 预报 、 生 态 
监测 监察 等 工作 。 不 管 从 国家 发 展 还 是 市 场 需求 两 方面 来 看 ， 环 境 大 数据 
都 具有 非常 大 的 发 展 前 景 。 


1. 环境 大 数据 的 意义 


环境 大 数据 的 意义 主要 体现 在 3 个 方面 : 第 一 ， 环 境 大 数据 可 促进 政 
府 生 态 环境 综合 决策 科学 化 、 监 管 精准 化 、 公 共 服 务 便民 化 ; 第 二 ， 环 境 
大 数据 将 有 助 于 企业 加 快 产业 转型 ， 发 现 新 的 商机 ， 拓 宽 更 广阔 的 市 场 ; 
第 三 ， 环 境 大 数据 给 公众 生活 带 来 更 多 便利 ， 提 升 生活 质量 ， 也 将 吸引 公 
众 对 生态 系统 和 环保 问题 的 关注 和 重视 。 

大 数据 的 应 用 在 相当 大 的 程度 上 颠覆 了 传统 的 管理 ， 生 产 和 生活 方式 ， 


























环境 大 数据 技术 给 我 们 提供 了 一 个 前 所 未 有 的 全 新 视角 ， 新 商机 和 新 商业 
模式 也 将 不 断 涌现 。 近 年 来 ， 与 环境 数据 相关 的 公共 服务 平台 如 雨后春笋 
般 不 断 推出 ， 比 如 PM25.in、PM2.5 云 监测 平台 、 中 国 天 气 网 、 环 境 云 等 。 

1) 环境 数据 的 时 空 特性 

环境 传感器 数据 的 一 个 重要 特点 是 除了 信息 本 身 所 包含 的 环境 物理 量 
的 测量 值 之 外 ， 其 信息 本 身 的 时 间 和 空间 特征 ， 也 就 是 其 分 布 信息 也 是 非 
党 关键 。 大 多 数 情况 下 ， 缺 乏 时 空 分 布 信息 的 环境 数据 是 局 部 的 、 不 完整 
的 ， 其 使 用 价值 也 相当 有 限 。 

环境 数据 中 的 时 间 和 空间 信息 有 不 同形 式 。 比 如 固定 地 点 布设 的 环境 
传感器 ， 其 发 布 的 数据 一 般 会 包含 一 个 采样 时 间 戳 ， 以 及 一 个 站 点 编号 。 
站 点 编号 对 应 了 其 经 纬度 坐标 。 移 动 设备 在 发 送 数据 的 时 候 往 往 会 附加 传 
送 设 备 当前 所 在 位 置 的 坐标 值 。 

在 时 间 维 度 上 ， 环 境 数据 可 分 为 历史 数据 和 实时 数据 ， 而 各 种 预报 系 
统 则 可 以 产生 预报 数据 。 

我 们 看 一 个 环境 云 (http: /www.envicloud.cn) 提供 的 大 气 监 测 站 点 的 


























实测 数据 样本 。 


人 "14", 
"no2_24h": "27"， 

"002 2 

"co_24h": "0.592"， 
"devid": "2237A", 

"03"; "15", 
"pmvalue_24h": "40", 
"citycode": "101060301", 
"pmvalue": "42", 

"prkey": "颗粒 物 ( PM10 ) "， 
"cos "019 
"publishtime": "2015102210" 
"no2": "44", 

"pm10_24h": "52", 

"aqi": "63", 

"pm10": "75", 
"longitude": "129.502759", 
"latitude": "42.903183", 
"03_24h": "83"， 
"03_8h_24h": "67", 
"03_8h": "9" 

} 


// 二 氧化 硫 指标 24 小 时 均值 
// 二 氧化 氮 指 标 24 小 时 均值 
/ 二 氧化 硫 指标 实时 值 

// 一 氧化 碳 指 标 24 小 时 均值 
// 监测 站 点 编号 

// 臭氧 指标 实时 值 

1/ PM2.5 指标 24 小 时 均值 

// 所 属 城市 编号 

1/ PM2.5 指标 实时 值 

// 首要 污染 物 

// 一 氧化 碳 指标 实时 值 

/ 数据 发 布 时 间 ， 格 式 : yyyyMMddHH 
// 二 氧化 氮 指 标 实时 值 

/1 PM10 指标 24 小 时 均值 

// 空气 质量 指数 实时 值 

1/ PM10 指标 实时 值 

// 监测 站 点 经 度 

// 监测 站 点 纬度 

// 臭氧 指标 24 小 时 均值 

// 臭氧 8 小 时 指标 24 小 时 均值 
// 臭氧 8 小 时 指标 实时 值 
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可 以 看 到 数据 结构 里 包含 了 时 间 和 经 纬度 坐标 。 

结合 地 理 信息 数据 ,我们 便 可 以 直观 地 在 地 图 上 展示 及 标识 环境 数据 。 

2) 多 层次 的 数据 采集 

近年 来 ， 由 于 经 济 持续 高 速 发 展 ， 以 及 工业 化 和 城市 化 进程 的 加 快 ， 
我 国 城市 大 气 污 染 问题 日 益 严重 ， 雾 考 天 气 频 发 ， 国 家 环保 部 和 各 省 级 环 
保 部 门 对 此 非常 重视 ， 已 投入 大 量 资源 在 主要 城市 建立 大 气 环境 监测 系统 。 
比如 目前 在 北京 已 建 有 36 个 大 气 环 境 监 测 站 。 这 些 专 人 值守 或 巡 值 的 国 控 
点 和 省 控 点 监测 项 目 全 面 ， 测 量 精确 ， 但 是 设备 本 身 及 其 运行 维护 成 本 很 
高 ， 难 以 大 规模 布设 ， 很 多 没有 监测 覆盖 的 地 点 通常 需要 采用 如 插值 计算 
等 间接 方式 来 获得 数据 。 

面 对 高 精度 专业 大 气质 量 监控 设备 所 带 来 的 数据 成 本 高 昂 ， 数 据 样 本 
不 足 的 问题 ， 一 个 解决 思路 是 大 量 布 建 低 成 本 的 空气 质量 环境 监测 设备 ， 
这 种 设备 测量 特征 因子 对 象 较 单 一 ， 测 量 精度 也 稍 差 ， 但 其 成 本 只 有 专业 
设备 的 几 十 分 之 一 甚至 几 百 分 之 一 ， 而 且 运 行 和 维护 要 求 很 低 ， 可 满足 空 
气质 量 监 测 、 数 据 传输 功能 ， 其 采样 数据 通过 与 专业 设备 测量 结果 进行 软 
件 比 对 校准 ， 修 正 数据 可 达到 满意 的 综合 监测 效果 ， 大 量 的 低 成 本 测量 设 
备 和 现 有 的 专业 环境 监测 点 形成 有 利 互补 ， 对 空气 质量 数据 的 全 面 和 准确 
评估 有 参考 意义 。 

3) 多 维度 的 环境 数据 整合 

@ 气象 气候 数据 。 最 为 常用 的 环境 数据 是 气象 数据 。 主 要 的 气象 数据 
包括 天 气 现象 、 温 度 、 气 压 、 相 对 湿度 、 风 力 风向 、 降 雨量 、 紫 外 线 辐射 
强度 以 及 气象 预警 事件 等 。 

@ 大 气质 量 数据 。 通 过 特征 因子 检测 仪器 及 PM2.5 监测 设备 ， 可 以 有 
效 地 监测 大 气 中 的 主要 污染 因子 ， 如 PM2.5、PM10、NO;,，、SO;、0O3 等 空 
气 中 的 主要 污染 物 ， 对 于 特定 区 域 如 化 工 生产 企业 周边 ， 还 包括 监测 空气 
中 Hz2S、NH3、NO;、SO，， 以 及 有 机 溶剂 气体 ， 可 燃气 体 等 污染 因子 的 需 
求 。 空 气 中 的 花粉 浓度 、 孢 子 浓度 、 大 气 背 景 的 辐射 强度 在 很 多 场合 也 是 
重要 的 环境 监测 对 象 因子 。 

@ 水 体 水 质数 据 。 监 视 和 测定 水 体 中 污染 物 的 种 类 、 各 类 污染 物 的 浓 
度 及 变化 趋势 ， 评 价 水 质 状况 的 过 程 。 监 测 范围 十 分 广泛 ， 包 括 未 被 污染 
和 已 受 污染 的 天 然 水 〈 江 、 河 、 湖 、 海 和 地 下 水 ) 及 各 种 各 样 的 工业 排水 
等 。 主 要 监测 项 目 可 分 为 两 大 类 : 一 类 是 反映 水 质 状况 的 综合 指标 ， 如 温 
度 、 色 度 、 浊 度 、pH、 电 导 率 、 悬 浮 物 、 溶 解 氧 、 化 学 需 氧 量 和 生化 需 氧 
量 等 ， 另 一 类 是 一 些 有 毒物 质 ， 如 酚 、 握 、 砷 、 铅 、 铬 、 锅 、 示 和 有 机 农 
药 等 。 为 客观 地 评价 江河 和 海洋 水 质 的 状况 ， 除 上 述 监测 项 目 外 ， 有 时 需 
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进行 流速 和 流量 的 测定 。 

@ 土壤 质量 数据 。 通 过 对 影响 土壤 环境 质量 因素 的 代表 值 的 测定 ， 确 
定 环境 质量 〈 污 染 程度 ) 及 其 变化 趋势 。 监 测 因子 包括 pH、 湿 度 、 氮 磷 含 
量 等 。 

@ 自然 灾害 数据 。 台风、 地 震 、 洪 水 、 龙 卷 风 、 泥 石 流 、 和 雷击 等 自然 
灾害 的 发 生 时 间 、 地 点 、 影 响 范围 等 也 是 环境 数据 中 的 一 个 重要 分 类 。 

@ 污染 排放 历史 。 城市 或 地 区 因 人 类 生产 或 生活 活动 所 产生 的 污染 物 
及 其 他 有 害 物质 排放 水 平 也 是 重要 的 一 类 环境 数据 。 与 此 相关 的 数据 还 包 
括 用 水 量 、 用 电量 、 化 石 燃料 的 用 量 ， 这 些 数 据 可 以 定量 地 衡量 地 区 的 工 
业 化 和 城市 化 的 水 平 ， 因 而 越 来 越 成 为 环境 质量 指标 的 重要 组 成 部 分 。 

必须 提 到 的 是 ， 生 态 环境 其 实 是 一 个 综合 的 、 复 杂 的 系统 ， 以 上 提 到 
的 各 类 环境 数据 之 间 其 实 存在 着 各 种 直接 的 或 间接 的 、 显 式 或 隐 含 的 、 或 
强 或 弱 的 关联 。 例 如 ， 大 气 中 污染 物 的 移动 受到 风力 风向 、 温 度 、 湿 度 等 
各 种 因素 的 影响 ， 过 去 在 缺少 测量 数据 的 情况 下 ， 人 们 无 法 解释 各 种 环境 
事件 或 现象 间 的 内 在 关联 ， 而 大 数据 技术 的 出 现 ， 使 人 们 能 充分 利用 所 采 
集 和 存储 的 大 量 的 多 维度 的 历史 数据 样本 ， 通 过 数据 挖 握 技 术 ， 深 度 神 经 
网 络 学 习 技 术 以 及 数值 模型 模拟 等 手段 ， 揭 示 和 发 现 数据 间 潜 在 的 实质 关 
联 和 规律 。 


2. 环境 数据 的 采集 与 获取 


1) 环境 数据 类 型 

要 掌握 环境 大 数据 ， 需 要 对 各 类 环境 数据 进行 测量 和 采集 。 环 境 数据 
的 特点 首先 是 海量 ， 其 次 是 数据 应 该 包括 时 间 和 空间 的 信息 ， 不 同 的 来 源 ， 
测量 方式 和 频率 也 不 尽 相 同 ， 因 此 ， 需 要 针对 不 同 特点 的 数据 采取 不 同 的 
采集 策略 。 

每 天 我 们 都 会 关注 天 气 预报 ， 我 们 也 会 关注 空气 质量 指数 的 预测 值 来 
决定 是 否 需 要 携带 口 日 出门 等 。 这 些 预 报 数 据 与 我 们 的 生活 密切 相关 ， 而 
且 大 多 数 的 预测 数据 都 以 天 为 频率 进行 更 新 ， 因 此 ， 采 集 这 些 环境 预测 数 
据 ， 可 以 采用 每 天 从 相应 的 数据 源 获取 的 方式 。 

典型 的 环境 预测 数据 包括 中 国 天 气 网 每 日 发 布 的 天 气 预报 ， 以 及 环境 
云 大 数据 平台 与 南京 大 学 大 气 科学 学 院 大 气 环境 研究 中 心 联合 发 布 的 每 日 
空气 质量 趋势 预报 等 。 

有 了 时， 拥有 了 每 天 的 环境 预测 数据 ， 并 不 能 满足 我 们 的 需要 。 每 天 中 
各 个 小 时 的 天 气 情况 均 有 所 差异 、 每 小 时 的 PM2.5 浓度 等 也 会 随 着 气象 条 
件 的 变化 而 改变 。 因 此 ， 有 必要 每 小 时 从 相应 的 数据 源 获 取 该 时 段 的 环境 
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实况 数据 。 

典型 的 环境 实况 数据 包括 中 央 气 象 台 每 小 时 发 布 的 城市 天 气 实况 ， 以 
及 第 三 方 环 境 数据 平台 PM25.in 每 小 时 更 新 的 全 国 空气 质量 实况 等 。 

除了 环境 预测 和 环境 实况 数据 ， 每 年 各 类 网 站 都 会 发 布 海 量 与 环境 相 
关 的 统计 与 监测 数据 ， 比 如 国家 环保 部 数据 中 心 提供 的 全 国 主要 流域 重点 
断面 水 质 自动 监测 周报 ， 以 及 公众 环境 研究 中 心 提供 的 各 省 污染 物 排放 年 
报 数据 等 。 对 于 这 些 统计 与 监测 数据 的 采集 ， 需 要 采取 与 数据 源 的 发 布 频 
率 一 致 的 更 新 频率 进行 更 新 。 

此 外 ， 由 于 物 联网 的 普遍 应 用 ， 各 类 环境 传感器 也 会 采集 和 上 传 海量 
的 环境 数据 。 要 想 获 取 并 解析 这 些 环境 传感器 上 传 的 环境 数据 ， 则 需要 了 
解 它们 传输 数据 的 格式 定义 。 

2) 环境 数据 采集 策略 的 确定 

由 于 各 类 环境 数据 源 发 布 环 境 数据 的 方式 不 尽 相 同 ， 因 此 ， 需 要 根据 
环境 数据 源 发 布 数 据 的 方式 来 确定 该 类 环境 数据 的 采集 策略 。 

环境 数据 的 来 源 基本 包括 以 下 几 方 面 。 

@ 各 类 传感器 产生 的 环境 数据 ， 这 些 数据 内 容 ， 结 构 各 不 相同 ， 常 见 
的 数据 结构 包括 二 进 制 、JSON 和 XML 等， 需要 按照 其 相应 数据 格式 进行 
实时 解析 。 

@ 政府 部 门 ， 权 威 机 构 环境 监测 系统 对 外 提供 的 数据 服务 ， 如 中 国 国 
家 气象 信息 中 心 提供 的 天 气 数据 服务 、 美 国 地 质 调查 局 (USGS ) 提供 的 全 
球 实 时 地 震 信 息 服务 。 这 种 数据 服务 一 般 是 以 编程 接口 形式 向 用 户 开放 。 

@ 各 类 第 三 方 环境 数据 源 。 有 些 环境 数据 源 提供 了 获取 环境 数据 的 接 
口 ， 比 如 PM25.in 平台 ， 调 用 相应 的 数据 接口 即 可 获取 这 类 环境 数据 。 也 
有 些 环境 数据 通过 网 页 发 布 ， 比 如 国家 环保 部 数据 中 心 提供 的 全 国 主要 流 
域 重点 断面 水 质 自动 监测 周报 等 ， 这 些 环 境 数 据 需 要 采用 网 页 爬虫 方式 来 
进行 获取 。 还 有 些 环境 数据 提供 相应 的 数据 文件 ， 要 采集 这 些 环境 数据 ， 
只 需要 对 这 些 文件 进行 解析 即 可 。 

@ 政府 职能 部 门 ， 环 保 机 构 和 非 政府 组 织 发 表 的 与 环境 有 关 的 报告 。 

3) 环境 数据 采集 有 效 性 

环境 数据 种 类 繁多 ， 数 据 源 分 散 ， 难 免 会 出 现 某 项 数据 采集 不 到 的 情 
况 。 针 对 这 些 问 题 ， 需 要 采取 一 定 的 处 理 来 保证 环境 数据 采集 的 有 效 性 。 

首先 ， 对 于 同一 数据 源 ， 为 了 避免 网 络 震荡 造成 的 影响 ， 应 采取 重 传 
机 制 ， 即 采集 数据 超时 之 后 ， 立 即 或 间隔 很 短 的 一 段 时 间 后 再 次 进行 尝试 。 

如 果 对 于 同一 数据 源 多 次 尝试 采集 均 失败 ， 应 该 采用 备用 的 数据 源 进 
行 该 类 环境 数据 的 采集 ， 此 时 需要 考虑 不 同 的 数据 源 提供 的 数据 的 差异 ， 
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采取 相应 的 处 理 。 

对 于 采集 到 的 数据 ， 如 果 包 含 明 显 无 效 或 异常 的 数据 值 ， 需 要 进行 过 
滤 处 理 ， 以 保证 只 存储 有 效 的 环境 数据 采集 值 。 

3. 环境 数据 的 存储 与 处 理 

1) 环境 数据 存储 策略 的 确定 

从 各 类 数据 源 获 取 到 的 环境 数据 有 两 个 特点 : 一 是 规模 上 是 海量 ; 二 
是 数据 结构 各 异 。 因 此 ， 通 常会 用 分 布 式 数据 存储 技术 如 Hadoop 集群 方式 
存储 数据 。 此外， 无 论 是 站 点 级 别 的 环境 监测 数据 ， 还 是 城市 级 别 的 环境 
预报 数据 ， 都 离 不 开 地 理 信 息 的 支撑 ， 而 这 些 地 理 信 息 往往 具有 较 强 的 关 
联 性 ， 可 以 采用 关系 型 数据 库 〈 如 MySQL) 来 存储 这 些 信息 。 

2) 环境 数据 存储 维度 

采集 并 存储 环境 数据 的 目的 是 方便 提供 查询 。 通 常 ， 我 们 会 查询 指定 
时 间 指 定 站 点 或 城市 的 环境 数据 ， 因 此 ， 在 存储 这 些 环境 数据 时 ， 考 虑 到 
数据 查询 的 效率 ， 需 要 针对 时 间 和 空间 两 个 维度 给 待 存储 的 数据 设 定 一 个 
唯一 标识 。 

环境 数据 存储 通常 采用 数据 发 布 的 时 间 来 作为 时 间 维 度 ， 而 空间 维度 
可 以 采用 站 点 或 城市 的 编号 和 经 纬度 等 信息 进行 设 定 。 

3) 数据 存储 与 托管 

由 于 大 部 分 环境 数据 具有 海量 异 构 的 特点 ， 而 存储 这 些 海量 异 构 数据 
需要 大 量 的 设备 空间 ， 在 进行 环境 大 数据 研究 时 ， 往 往 并 不 具备 这 些 条 件 。 
针对 这 种 情况 ， 可 以 采用 数据 仓库 与 托管 平台 来 进行 数据 存储 与 托管 ， 从 
复杂 的 底层 硬件 管理 中 脱离 出 来 ， 专 注 于 环境 数据 服务 的 实现 。 

选择 这 类 数据 仓库 与 托管 平台 时 ， 需 要 综合 考虑 该 平台 的 可 靠 性 、 拓 
展 性 、 安 全 性 、 灵 活性 及 成 本 等 因素 。 

比较 好 用 的 数据 仓库 与 托管 平台 有 微软 的 数据 仓库 和 云 创 公司 的 万 物 
云 平台 等 。 

4) 存储 环境 数据 时 的 处 理 

前 面 已 经 提 到 ， 为 了 节约 存储 空间 ， 采 集 到 的 无 效 或 异常 值 需要 进行 
过 滤 。 因 此 ， 在 存储 采集 到 的 环境 数据 之 前 ， 需 要 预先 设 定 异常 值 判 定 条 
件 ， 来 排除 这 些 采集 到 的 无 效 环境 数据 。 

需要 注意 的 是 ， 原 始 环 境 数 据 值 有 时 可 能 并 不 便于 查询 ， 壁 如 ， 一 些 
环境 监测 站 点 所 采集 到 的 数据 ， 通 过 站 点 编号 并 不 清楚 其 所 对 应 的 城市 。 

这 时 便 需 要 根据 站 点 的 经 纬度 来 确定 其 所 属 的 城市 ， 并 可 以 在 存储 原 
始 站 点 数据 的 同时 ， 来 统计 该 城市 所 包含 的 所 有 站 点 数据 值 ， 并 将 这 些 统 
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计数 据 也 一 并 进行 存储 ， 以 便 提供 城市 级 别 的 环境 数据 查询 。 
4. 环境 数据 的 应 用 


1) 环境 数据 服务 接口 

由 于 国内 近 几 年 来 雾 者 、 沙 尘 暴 等 环境 问题 的 日 益 凸 显 ， 人 们 对 环境 
保护 的 重视 程度 也 越 来 越 高 ， 越 来 越 多 的 人 开始 从 事 与 环 境 相关 的 网 站 及 
App 的 开发 。 

在 环境 数据 的 采集 与 获取 小 节 中 提 到 了 4 种 环境 数据 采集 策略 ， 其 中 ， 
最 为 便利 的 采集 策略 是 调用 接口 获取 环境 数据 。 

目前 包括 百度 API Store 和 京东 万 象 等 在 内 的 大 多 数 数据 交易 平台 都 提 
供 了 限定 条 件 下 免费 或 收费 的 第 三 方 的 环境 数据 服务 接口 ， 云 创 大 数据 推 
出 的 万 物 云 一 一 环境 大 数据 服务 平台 (http: Wwww.envicloud.cn) 则 另 辟 蹊 
径 ， 通 过 接收 云 创 自 主 布 建 的 包括 空气 质量 指标 、 土 壤 环境 质量 指标 检测 
网 络 等 在 内 的 各 类 全 国 性 环境 监控 传感器 网 络 所 采集 的 数据 ， 并 获取 包括 
中 国 气 象 网 、 中 央 气 象 台 、 国 家 环保 部 数据 中 心 、 美 国 全 球 地 震 信息 中 心 
等 在 内 的 权威 数据 源 所 发 布 的 各 类 环境 数据 ， 并 结合 相关 数据 预测 模型 生 
成 的 预报 数据 , 依托 数据 托管 服务 平台 万 物 云 (http: //www.wanwuyun.com) 
所 提供 的 基础 存储 服务 ， 提 供 了 一 系列 功能 丰富 的 、 便 捷 易 用 综合 环境 数 
据 REST API 接口 ， 向 环境 应 用 的 开发 者 提供 包括 气象 、 大 气 环境 、 地 震 、 
台风 、 地 理 位 置 等 与 环境 相关 的 JSON 格式 的 可 靠 数据 ， 如 图 7-8 所 示 。 
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图 7-8 万 物 云 一 一 环境 大 数据 服务 平台 
企业 或 个 人 开发 者 在 开发 天 气 预报 、 空 气质 量 等 与 环境 相关 的 应 用 
App 时 ， 可 以 直接 通过 环境 云 网 站 查看 支持 的 数据 接口 ， 并 根据 其 说 明 来 
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调试 这 些 接口 ， 降 低 环境 应 用 开发 成 本 ， 提 高 开发 效率 。 

2) 环境 数据 可 视 化 

环境 数据 服务 接口 对 于 了 解 计算 机 编程 的 人 来 说 是 个 很 好 的 福利 ， 但 
对 于 那些 并 不 了 解 计算 机 编程 的 人 来 说 ， 他 们 往往 更 倾向 于 能 够 直观 地 了 
解 这 些 环境 数据 ， 因 此 ， 将 环境 数据 进行 可 视 化 应 用 ， 就 显得 尤为 重要 。 

前 文 已 经 提 到 ,环境 数据 采集 和 存储 时 均 采 用 了 时 间 和 空间 两 个 维度 ， 
每 个 城市 和 测 点 也 均 有 自己 在 地 图 上 的 经 纬度 坐标 ， 因 此 ， 可 以 采用 地 图 
来 展示 这 些 城市 和 测 点 的 环境 数据 。 

环境 云 平台 的 数据 地 图 直观 地 展示 了 全 国 2 500 多 个 城市 的 天 气 预 报 、 
历史 天 气 、 大 气 环境 、 污 染 排放 、 地 质 灾 害 及 基本 的 地 理 位 置 等 数据 ， 让 
用 户 可 以 一 目 了 然 地 了 解 自己 所 在 城市 的 环境 信息 。 

为 了 提高 环境 数据 预测 的 准确 率 ， 人 们 往往 还 需要 结合 历史 环境 数据 
来 进行 分 析 。 基 于 这 些 考虑 ， 历 史 环境 数据 趋势 的 可 视 化 也 是 一 个 很 有 意 
义 的 应 用 。 环 境 云 平 台 便 提 供 了 2006 一 2015 年 的 十 年 全 国 历史 天 气 数 据 的 
可 视 化 。 

3) 环境 数据 聚合 

对 于 城市 环境 数据 ， 天 气 预报 、 空 气质 量 等 数据 往往 需要 综合 起 来 进 
行 分 析 ， 因 此 ， 聚 合 越 多 的 城市 环境 数据 ， 其 潜在 的 价值 就 越 有 可 能 被 挖 
掘 出 来 。 

环境 云 平台 提供 了 城市 主题 页 面 ， 聚 合 了 城市 天 气 和 空气 质量 实况 、 
天 气 预报 、 空 气质 量 预 报 、 天 气 和 空气 质量 的 过 去 24 小 时 历史 、 过 去 十 年 
的 年 降雨 量 和 最 高 最 低 气 温 、 近 5 年 污染 排放 、 最 近 地 震 数据 等 ， 为 人 们 
查看 该 城市 的 综合 环境 数据 提供 了 极 大 的 便利 。 

4) 环境 大 数据 的 应 用 价值 

随 着 “互联 网 +” 概 念 的 提出 ， 环 境 数据 正成 为 一 个 极 具 潜力 的 热点 ， 
广东 佛山 市 已 经 发 布 《环境 信息 化 建设 方案 》， 推 动 政府 环保 数据 开放 ， 引 
导 更 多 企业 、 社 会 组 织 、 个 人 人、 高校、 科研 院 所 、 创 投机 构 对 环境 保护 大 
数据 进行 挖掘 、 分 析 和 商业 模式 创新 ， 形 成 “数据 采集 一 数据 开放 一 数据 
消费 ”的 良性 循环 。 

通过 对 历史 环境 数据 的 挖掘 与 分 析 ， 可 以 发 现 某 些 环境 数据 之 间 的 相 
关 性 ， 比 如 地 震 前 后 的 天 气 变化 、 气 象 条 件 对 大 气 污染 物 扩 散 的 影响 等 。 
通过 总 结 这 些 环境 数据 的 规律 ， 可 以 更 好 地 建立 环境 数据 模型 ， 从 而 提高 
环境 数据 预测 的 准确 性 。 

图 7-9 是 使 用 深度 学 习 的 方法 , 利用 LSTM (长 短期 记忆 ) 网 络 进行 对 
于 PM2.5 的 24 小 时 预测 结果 。 该 模型 结合 了 以 往 的 天 气 、 气 温 、 气 压 、 湿 
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图 7-9 利用 LSTM 网 络 进行 预测 
此 外 ， 还 可 以 结合 环境 数据 和 一 些 其 他 行业 的 数据 来 做 综合 分 析 ， 比 
如 气象 对 交通 的 影响 ， 关 联 环境 数据 和 某 些 疾病 发 病 数据 可 以 跟踪 流行 病 
的 发 病 趋 势 ， 环 境 对 水 利 、 电 力 、 交 通 、 农 业 的 影响 也 可 以 通过 对 各 种 数 
据 的 时 空 关联 来 实现 ， 针 对 干旱 、 暴 雨 洪涝、 森林 火险 、 冰 雹 、 和 雷电 等 灾 
害 性 天 气 的 气象 灾害 预警 ， 为 各 相关 行业 提供 有 力 的 数据 支撑 ， 发 挥 环境 
数据 应 有 的 价值 。 


7.2.6 农业 








中 国 是 一 个 农业 大 国 ， 有 着 几 千 年 的 农业 种 植 经 验 ， 但 是 农产品 不 容 
易 保 存 ， 因 此 合理 种 植 和 存储 农产品 对 农民 非常 重要 。 借 助 于 大 数据 提供 
的 消费 能 力 和 趋势 报告 ， 政 府 将 为 农 牧 业 生产 进行 合理 引导 ， 依 据 需 求 进 
行 生产 ， 避 免 产 能 过 剩 ， 造 成 不 必要 的 资源 和 社会 财富 浪费 。 大 数据 技术 
可 以 帮助 政府 实现 农业 的 精细 化 管理 ， 实 现 科学 决策 。 在 数据 驱动 下 ， 结 
合 无 人 机 技术 ， 农 民 可 以 采集 农产品 生长 信息 ， 病 虫害 信息 。 

农业 生产 面临 的 危险 因素 很 多 ， 但 这 些 危 险 因素 很 大 程度 上 可 以 通过 
除草 剂 、 杀 菌 剂 、 杀 虫 剂 等 技术 产品 进行 消除 。 天 和 气 成 了 影响 农业 非常 大 
的 决定 因素 。 过 去 的 天 气 预报 仅仅 能 提供 当地 的 降雨 量 ， 但 农民 更 关心 有 
多 少 水 分 可 以 留 在 他 们 的 土地 上 ， 这 些 是 受降 雨量 和 土质 来 决定 的 。 一 些 
科技 公司 利用 政府 开放 的 气象 站 的 数据 和 土地 数据 建立 了 模型 ， 它 们 可 以 
告诉 农民 可 以 在 哪些 土地 上 耕种 ， 哪 些 土地 今天 需要 喷雾 并 完成 耕种 ， 哪 
些 正 处 于 生长 期 的 土地 需要 施肥 ， 哪 些 土地 需要 几 天 后 才 可 以 耕种 ， 从 而 


























oe— 


186 大 数据 导论 一 e 


合理 规划 ， 节 约 时 间 ， 大 数据 技术 可 以 帮助 农业 创造 巨大 的 商业 价值 。 

云 创 大 数据 (www.cstor.cn) 研发 了 一 种 土壤 探 针 ， 目 前 能 够 监测 土壤 的 
温度 、 湿 度 和 光照 等 数据 ， 即 将 扩展 监测 氮 、 磷 、 钾 等 功能 。 该 探 针 成 本 极 
低 , 通过 ZigBee 建立 自 组织 通 信 网 络 , 每 亩 地 只 需 插 一 根 针 ， 最 后 将 数据 汇 
聚 到 一 个 无 线 网 关 ， 上 传 到 万 物 云 (www.wanwuyun.com) 进行 分 析 处 理 。 





7.2.7 零售 行业 


零售 行业 可 以 通过 客户 购买 记录 ， 了 解 客户 关联 产品 购买 喜好 ， 将 相 
关 的 产品 放 到 一 起 来 增加 产品 销售 额 ， 例 如 将 洗衣 服 相关 的 化 工 产品 《〈 如 
洗衣 粉 、 消 毒液 、 衣 领 净 等 ) 放 到 一 起 进行 销售 。 根 据 客户 相关 产品 购买 
记录 而 重新 摆 放 的 货物 将 会 给 零售 企业 增加 30% 以 上 的 产品 销售 额 。 

零售 行业 还 可 以 记录 客户 购买 习惯 ， 将 一 些 日 常 需要 的 必 备 生活 用 品 ， 
在 客户 即将 用 完 之 前 ， 通 过 精准 广告 的 方式 提醒 客户 进行 购买 。 或 者 定期 
通过 网 上 商城 进行 送 货 ， 既 帮助 客户 解决 了 问题 ， 又 提高 了 客户 体验 。 

电 商 行业 的 巨头 天 猫 和 京东 ， 已 经 通过 客户 的 购买 习惯 ， 将 客户 日 常 
需要 的 商品 例如 尿 不 湿 、 卫 生 纸 、 衣 服 等 商品 依据 客户 购买 习惯 事先 进行 
准备 。 当 客户 刚刚 下 单 ， 商 品 就 会 在 24 小 时 内 送 到 客户 门口 ， 提 高 了 客户 
体验 ， 让 客户 连 后 悔 等 时 间 都 没有 。 利 用 大 数据 的 技术 ， 零 售 行业 将 至 少 
会 提高 30% 左 右 的 销售 额 ， 并 提高 客户 购买 体验 。 


7.2.8 大 数据 舆情 分 析 


2017 年 夏天 ， 全 国 各 地 不 断 发 布 高 温 预警 ， 火 一 样 的 天 气 ， 然 而 比 天 
气 更 火热 的 就 是 吴京 的 《 战 狼 2》， 相 信 大 家 都 不 陌生 。 该 片 讲述 了 脱 下 军 
装 的 冷 锋 被 卷 入 了 一 场 非洲 国家 的 叛乱 ， 本 来 能 够 安全 撤离 的 他 无 法 忘记 
军人 的 职责 , 重 回 战场 展开 救援 的 故事 。 媒体 报道 , 一 点 资讯 “兴趣 指数 ” 
系列 之 《“ 战 狼 ” 大 数据 报告 》， 帮 助 我 们 更 加 全 面 地 了 解 电影 热 映 背后 的 
那些 有 趣 的 数据 。 

相 比 于 2015 年 上 映 并 夺取 了 7 亿 票 房 的 《 战 狼 1》 来 说 , 《 战 狼 2》 和 凭 
借 超 燃 的 剧情 设计 和 精良 制作 ， 获 得 了 口碑 与 票房 的 双 丰 收 。7 月 27 日 上 
映 后 4 小 时 破 亿 ，11 天 破 30 亿 ，12 天 破 33.9 亿 纪 录 ，15 天 破 40 亿 成 为 
华语 电影 票房 新 冠军 。 票 房 开 挂 的 同时 ， 一 点 资讯 网 友 通过 对 《 战 狼 2》 的 
关注 度 ， 发 现 其 在 10 天 内 暴涨 了 4 倍 。 

在 电影 相关 内 容 的 输出 方面 ,《 战 狼 2》 上 映 15 天 内 ， 一 点 资讯 平台 上 
相关 资讯 总 曝光 量 达 6.53 亿 。 除 了 登 项 票房 榜 、 热 门 文章 榜 ， 在 口碑 方面 
也 取得 了 压倒 性 的 好 评 ， 评 论 区 点 赞 量 占 比 95.7%。“ 战 狼 ” 相 关 热 词 中 ， 
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吴京 、 谢 楠 、 成 龙 、 李 连 杰 、 军 人 、 特 种 兵 等 关键 词 纷 纷 上 榜 。 而 “维和 
部 队 ” 也 因 战 士 们 认为 该 片 正 是 他 们 面 对 的 真实 生活 ， 期 望 能 尽快 看 到 电 
影 而 出 现在 榜 单 中 。 图 7-10 为 《 战 狼 2》 全 网 信息 关键 词 。 
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7-10 《 战 狼 2》 全 网 信息 关键 词 


作为 超 燃 的 主旋律 动作 电影 , 《 战 狼 2》 吸 引 了 大 批 男性 观 影 人 群 。 数 
据 统 计 显示 ， 在 资讯 平台 上 ， 关 注 战 狼 的 用 户 超 过 90% 是 男性 ， 这 一 比例 
超过 了 2016 年 十 分 火热 的 《美人 鱼 》52.38% 的 男性 用 户 比例 ， 也 远 远 高 于 
同 档期 的 《三 生 三 世 十 里 桃花 》。 因 此 ， 便 有 了 网 友 的 调侃 称 :“ 散 场 后 ， 
第 一 次 男 厕所 排队 的 人 数 比 女 厕所 多 。” 

当下 ,《 战 狼 2》 已 成 为 爱国 主义 情怀 的 代名词 ， 除 了 大 批 圈 粉 中 老年 ， 
也 同样 受到 年 轻 人 的 喜爱 。 引 人 注意 的 是 ,“90 后 ”已 成 为 关注 “ 战 狼 ” 的 
主力 人 群 。 在 年 龄 维度 上 ，25 一 29 岁 年 轻 人 占 比 最 高 ， 达 37.4%; 24 岁 及 
以 下 年 轻 人 占 比 第 二 ， 约 33%， 改 变 了 以 往 主旋律 影片 在 年 轻 群 体 关注 度 
普遍 偏 低 的 境遇 。 这 些 数据 我 们 可 以 从 图 7-11 中 看 到 。 





DR 
一 
这 ez. 
Eee 
VE 
图 7-11 关注 《 战 狼 2》 的 网 友 性 别 比 例 与 年 龄 层次 











187 一? 


全 网 信息 关联 词 也 随 之 产生 ， 如 图 7-12 所 示 ， 通 过 对 《 战 狼 2》 相 关 
信息 进行 分 析 可 得 看 出 ， 如 图 7-13 所 示 ， 与 其 核心 词 “ 战 狼 2” 关 联 度 最 
高 的 词语 为 “ 战 狼 ”(100%)、“ 电 影 ”(46.07%) 和 “中 国 ”(41.28%)。 另 
外 ,“ 护 照 ”(18.70%)、“ 怒 长 ”(12.51%)。 








战 狼 2 





电影 成 狼 
图 7-12 《 战 狼 2》 关 联 词汇 搜索 





核心 词 关联 词 关联 度 
战 狠 100. 00W 
电影 46. 07% 
中 国 41. 28% 
吴京 32. 09% 
票房 27. 42% 
战 狠 2 护照 18. 70% 
张 朝 15. 42% 
怒 鞠 12. 51% 
英雄 主义 9. 93% 
导演 9. 60% 
威武 6. 99% 


图 7-13 《 战 狼 2》 关 联 词汇 搜索 占 比 
7.2.9 物流 行业 


中 国 的 物流 产业 规模 大 概 有 5 万 亿 左右 ， 其 中 公里 物流 市 场 大 概 有 3 
万 亿 左 右 。 物 流行 业 的 整体 净利 润 从 过 去 的 30% 以 上 降低 到 了 20% 左 右 ， 
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并 且 呈 明显 下 降 趋 势 。 物 流行 业 很 多 的 运力 浪费 在 返程 空 载 、 重 复 运输 、 
小 规模 运输 等 方面 。 中 国 市 场 最 大 等 物流 公司 所 占 的 市 场 份 额 不 到 1%。 因 
此 资源 需要 整合 ， 运 送 效 率 需要 提高 。 

物流 行业 借助 于 大 数据 ， 建 立 全 国 物流 网 络 ， 了 解 各 个 节点 的 运 货 需 
求 和 运力 ， 合 理 配置 资源 ， 降 低 货车 的 返程 空 载 率 ， 降 低 超载 率 ， 减 少 重 
复 路 线 运输 ， 降 低 小 规模 运输 比例 。 通 过 大 数据 技术 ， 及 时 了 解 各 个 路 线 
货物 运送 需求 ， 同 时 建立 基于 地 理 位置 和 产业 链 的 物流 港口 ， 实 现货 物 和 
运力 的 实时 配 比 ， 提 高 物流 行业 的 运输 效率 。 借 助 于 大 数据 技术 对 物流 行 
业 进 行 的 优化 资源 配置 ， 至 少 可 以 增加 物流 行业 10% 左 右 的 收入 ， 其 市 场 
价值 将 在 5 000 亿 左 右 。 








7.2.10 房地产 业 


中 国 房地产 业 发 展 的 高 峰 已 经 过 去 ， 其 面临 的 挑战 逐渐 增加 ， 房 地 产 
业 正 从 过 去 的 粗放 发 展 方式 转向 精细 运营 方式 ， 房 地 产 企业 在 拍卖 土地 、 
住房 地 产 开发 规划 、 商 业 地 产 规划 方面 也 将 会 谨慎 进行 。 

借助 于 大 数据 技术 ， 特 别 是 移动 大 数据 技术 ， 房 地 产业 可 以 了 解 开发 
土地 所 在 范围 常住 人 口 数量 、 流 动人 口 数 量 、 消 费 能 力 、 消 费 特点 、 年 龄 
阶段 、 人 口 特征 等 重要 信息 。 诸 如 此 类 信息 将 会 帮助 房地产 商 在 商业 地 产 
开发 、 商 户 招商 、 房 屋 类 型 、 小 区 规模 进行 科学 规划 。 利 用 大 数据 技术 ， 
房地产 行业 将 降低 房地产 开发 前 的 规划 风险 ， 合 理 制 定 房价 ， 合 理 制定 开 
发 规模 ， 合 理 进行 商业 规划 。 大 数据 技术 可 以 降低 土地 价格 过 高 ， 实 际 购 
房 需求 过 低 的 风险 。 已 经 有 房地产 公司 将 大 数据 技术 应 用 于 用 户 画 像 、 土 
地 规划 、 商 业 地 产 开 发 等 领域 ， 并 取得 了 良好 的 效果 。 


7.2.11 地震 面 前， 大 数据 来 拯救 


中 国 地 震 台 网 正式 测定 : 2017 年 8 月 8 日 21 时 19 分 在 四 川 阿 坝 州 九寨 
沟 县 (北纬 33.20 度 ， 东 经 103.82 度 ) 发 生 7.0 级 地 震 ， 震 源深 度 20 千 米 。 

在 2013 年 的 雅安 地 震中 ， 几 乎 与 芦山 地 震 发 生 同 时 ， 四 川 省 成 都 高 新 
减灾 研究 所 已 经 在 计算 机 网 络 、 手 机 客户 端 、 专 用 预警 接收 服务 器 、 电 视 
台 、 微 博 等 平台 上 都 同步 发 出 了 地 震 预警 。 成 都 高 新 减灾 研究 所 最 先 预测 
到 雅安 地 震 的 发 生 。 可 以 说 我 国 拥有 世界 最 大 的 地 震 预 警 系统 。 

说 地 震 预测 预报 是 最 重要 的 世界 难题 ， 肯 定 不 为 过 。 因 为 它 的 发 生 会 
涉及 大 面积 的 人 生命 安全 及 财产 安全 ， 其 覆盖 的 科学 研究 领域 太 多 ， 太 繁 
杂 是 目前 最 大 的 困难 。 但 值得 庆幸 的 消息 是 ， 我 国 首 次 成 功 预 警 一 次 2017 
年 2 月 19 日 的 云南 巧 家 10 时 46 分 59 秒 5.0 级 地 震 。 那么 , 我 们 是 否 真 的 
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可 以 通过 信息 化 或 者 大 数据 技术 来 解决 地 震 预测 和 预警 这 个 世界 难题 呢 ? 
现在 的 解决 办 法 是 采用 数据 监控 形成 预警 网 。 

我 国 属于 地 震 多 发 区 ，20 世纪 发 生 过 多 次 大 地 震 ， 新 中 国 成 立 后 在 周 
总 理 的 亲自 带领 下 ， 由 著名 地 质 学 家 李四光 带 队 ， 从 板块 学 着 手 ， 建 立 了 
一 支 群 测 群 防 的 地 震 预 报 队 。 具 体 的 做 法 是 ， 在 板块 比较 活跃 的 地 带 ， 首 
先 形成 多 个 观测 网 点 ， 然 后 层 层 落实 到 人 ， 进 行 基础 参数 的 观测 。 其 中 的 
参数 包括 地 磁 、 地 电 、 磁 偏 角 、 地 面 温度 ， 以 及 地 下 水 水 温 、 水 位 和 水 中 
气体 氛 的 含量 。 观 测 点 每 天 将 采集 到 的 数据 观测 出 来 后 记录 下 来 ， 汇 成 表 
格 ， 作 为 备案 ， 如 果 有 异常 ， 就 要 向 上 一 级 区 县 级 地 震 小 组 汇报 反映 。 由 
于 基层 观测 点 的 设备 比较 基础 且 简 陋 ， 数 据 是 否 准 确 ， 县 级 以 上 会 做 出 判 
断 甄别 ， 去 除 干 扰 信 号 。 然 后 由 区 再 向 市 级 与 省 级 汇报 ， 最 后 汇报 到 国家 
地 震 局 。 

由 此 可 见 ， 这 实际 上 是 一 个 很 大 的 地 震 预警 网 络 ， 如 果 观 测 点 足够 多 ， 
产生 的 数据 量 也 会 很 大 ， 仅 依靠 简单 的 人 工 手绘 制 趋势 图 是 相对 原始 的 ， 
而 且 如 果 地 震 很 快 发 生 ， 那 这 样 的 工作 只 能 起 到 记录 作用 ， 失 去 了 预警 作 
用 。 但 是 ， 就 是 这 样 一 个 原始 预警 系统 ， 在 20 世纪 70 年 代 还 准确 预测 出 
了 辽宁 海 城 地 震 ， 让 世界 地 震 预报 界 甚 为 震惊 。 地 震 预警 让 我 们 可 以 通过 
监测 地 震源 发 生地 震 后 ， 立 刻 通 过 无 线 电 系统 对 外 发 送 应 急 广 播 ， 通 过 电 
视 ， 手 机 短信 等 多 手段 通知 受灾 区 域 ， 给 大 家 赢得 更 多 时 间 ， 转 移 贵重 财 
产 和 保障 更 多 人 员 的 生命 安全 。 

地 震 预 警 系 统 原理 大 致 是， 地 震波 分 为 纵波 和 横 波 ， 纵 波 的 速度 很 快 、 
垂直 传播 ， 横 波 横向 传播 ， 但 它 的 速度 只 有 每 秒 3.5 公里 左右 。 我们 的 接收 
装置 接收 地 震 的 纵波 信号 后 ， 就 用 无 线 电 (速度 = 光速 ) 快速 传播 到 预警 系 
统 ， 并 向 地 震波 尚未 到 达 的 地 方 进行 预警 。 

中 国 地 震 局 工作 人 员 表 示 ， 中 国 地 震 局 “国家 地 震 烈度 速 报 与 预警 工 
程 ” 目 前 已 经 进入 发 改 委 立项 程序 ， 计 划 投 入 20 个 亿 , 用 5 年 时 间 建 设 覆 
盖 全 国 的 由 5 000 多 个 台 站 组 成 的 国家 地 震 烈 度 速 报 与 预警 系统 。 目前 该 工 
程 正在 福建 省 试点 。 

我 们 利用 大 数据 技术 保护 我 们 的 生命 和 财产 安全 是 必然 趋势 。 其 实地 
震 火 山 等 都 可 以 利用 这 种 原理 进行 试点 监测 。 设 置 的 观测 点 越 多 ， 需 要 存 
储 和 处 理 的 数据 就 越 多 ， 美 国 在 黄石 火山 安放 了 几 百 个 观测 仪 ， 数 据 实时 
传 到 预先 设置 好 的 预警 系统 中 ， 然 后 通过 互联 网 对 外 发 布 。 所 以 ， 一 旦 黄 
石 火 山 出 现 问 题 ， 美 国政 府 将 会 率先 知道 。 观 测 数据 分 为 两 部 分 : 一 部 分 
是 常规 数据 ; 另 一 部 分 是 异常 突 发 数据 。 一 个 地 区 的 异常 突 发 数据 越 多 ， 
发 生地 震 的 可 能 性 就 越 大 。 所 以 预警 系统 主要 是 对 这 些 数据 进行 快速 反应 。 
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大 数据 除了 海量 数据 存储 与 加 工 处 理 ， 还 有 一 个 问题 ， 就 是 数据 的 多 
样 性 ， 数 据 的 多 样 使 地 震 带 来 的 问题 更 加 明显 。 除 了 自然 地 理 特征 参数 指 
标 外 ， 动 物 异常 也 是 一 个 很 重要 的 指标 。 比 如 唐山 大 地 震 前 ， 不 光 是 地 下 
水 位 上 涨 ， 水 温 提 高 ， 就 连 老鼠 、 蛇 、 猫 、 青 蛙 等 动物 都 有 异常 反应 。 其 
实 一 般 人 如 果 稍 微 留意 都 可 以 发 现 。 可 以 想象 ， 一 个 那么 大 的 地 震 ， 生 物 
不 可 能 没有 任何 征兆 。 我 们 进行 地 震 预 报 预测 的 目的 ， 就 是 通过 各 种 手段 ， 
找到 一 些 蛛丝马迹 ， 然 后 快速 确认 ， 把 消息 传达 给 广大 人 民 和 群众 ， 使 得 灾 
害 损失 达到 最 小 。 

目前 ， 也 出 现 了 很 多 民间 地 震 预 测 方法 ， 虽 然 预 测 结果 有 偏差 ， 但 在 
人 的 生命 面前 ， 也 是 一 种 必要 的 尝试 。 现 在 有 些 地 方 小 的 地 震 预 测 网 站 可 
以 通过 多 数 人 的 手机 图 片 拍摄 或 者 短信 消息 上 传 方式 来 汇集 震 前 动物 异 
常 ， 可 以 为 专业 地 震 局 提供 最 真实 资料 ， 其 实 这 也 是 大 数据 收集 的 一 种 表 
现形 式 ， 这 样 的 行为 也 应 受到 法 律 许可 。 


7.2.12 ”暑假 出 境 游 大 数据 分 析 


每 年 暑期 ， 盛 夏 时 节 ， 避 时 休闲 度假 已 是 广大 游客 出 行 的 重要 动机 。 
每 年 暑假 去 哪里 玩 成 为 大 家 热爱 讨论 的 一 个 话题 。 搜 狗 大 数据 依据 5 亿 网 
民 暑 期 出 行 旅游 大 数据 ， 对 出 境 游 热门 旅游 目的 地 、 人 和 群 属 性 、 消 费 偏好 
等 做 了 重点 分 析 ， 并 发 布 了 详细 的 报告 , 报告 得 出 的 结论 显示 泰国 以 13381 
的 搜索 指数 列 为 出 游 首选 国家 ， 日 本 和 越南 搜索 指数 分 别 为 8611 和 8112， 
分 别 位 居 第 二 和 第 三 。 其 中 北京 和 上 海地 区 的 游客 对 泰国 游 的 热情 高 涨 不 
减 ， 湖 北 、 四 川 、 江 苏 、 广 东 人 民 对 泰国 旅游 的 热情 也 是 非常 积极 的 ， 排 
在 第 七 名 的 是 浙江 省 。 前 七 名 省 市 的 人 们 对 泰国 游 的 关注 指数 高 于 全 体 网 
民 。 泰 国 的 曼谷 和 日 本 的 北海 道 是 最 受 人 们 欢迎 的 城市 。 巴 厘 岛 成 为 国人 
最 爱 去 的 海岛 ， 其 次 分 别 为 普 吉 岛 、 马 尔 代 夫 、 沙 巴 岛 、 塞 班 岛 。 在 对 出 
游人 气 的 分 析 中 显示 ， 女 性 更 热衷 于 出 境 游 ， 女 性 对 出 境 游 的 关注 指数 高 
出 男性 近 一 倍 。 中 青年 、 高 学 历 人 和 群 是 出 境 游 的 主力 军 。20 一 40 岁 的 青年 
人 成 为 出 境 游 的 主体 人 群 ， 一 线 城市 领跑 出 境 游 ， 其 中 上 海 占 比 8.92%, 北 
京 占 比 9.88%。 

大 数据 同时 对 出 境 游 偏好 做 了 分 析 。 购 物 偏 好 方面 ,“ 制 手 党 ”在 境外 
最 喜欢 买 的 无 疑 是 护肤 品 ， 其 次 才 是 服饰 和 营养 保健 品 。 其 中 眼 妆 、 面 膜 
占据 了 国人 的 购物 车 。 服 饰品 牌 上 的 购买 ， 首 选 巴宝莉 、 爱 马 仕 、 普 拉 达 ， 
这 些 奢侈 品 成 了 国人 最 爱 购买 的 品牌 。 厨 房 电器 、 生 活 电器 也 是 国人 喜欢 
购买 的 海外 数码 产品 。 

手机 App 的 使 用 和 利用 非常 高 ， 利 用 手机 App 几乎 可 以 搞定 旅途 中 遇 




















191 


oe— 


192 大 数据 导论 一 e 


到 的 一 切 问题 。 大 型 旅游 平台 占据 了 出 境 游 的 主导 地 位 ， 携 程 旅行 、 去 哪 
儿 旅 行 、 同 城 旅行 占据 前 三 甲 的 位 置 。 

大 数据 已 经 融入 我 们 的 生活 ， 给 我 们 出 行 带 来 巨大 便利 ， 正 逐步 改变 
着 我 们 的 生活 ， 使 生活 更 智能 化 。 


7.2.13 互联 网 大 数据 


大 数据 技术 能 够 根据 客户 在 网 上 的 浏览 记录 ， 对 客户 的 浏览 行为 进行 
分 析 ， 打 上 标签 并 进行 用 户 画 像 。 特 别 是 进入 移动 互联 网 时 代 之 后 ， 客 户 
主要 的 访问 方式 转向 了 智能 手机 和 平板 电脑 ， 移 动 互联 网 的 数据 包含 了 个 
人 的 位 置信 息 ， 其 360 度 用 户 画 像 更 加 接近 真实 人 群 。360 度 用 户 画 像 可 以 
帮助 广告 主 进行 精准 营销 ， 广 告 公司 可 以 依据 用 户 画 像 的 信息 ， 将 广告 直 
接 投 放 到 用 户 的 移动 设备 ， 通 过 用 户 经 常 使 用 的 客户 端 进行 广告 投放 ， 其 
广告 的 转化 可 以 大 幅度 提高 。 利 用 移动 互联 网 大 数据 技术 进行 的 精准 营销 
将 会 提高 10 倍 以 上 的 客户 转化 率 ,广告 行业 的 程序 化 购买 正在 逐步 奉 代 广 
播 式 广告 投放 。 大 数据 技术 将 帮助 广告 主 和 广告 公司 直接 将 广告 投放 给 目 
标 用 户 ， 其 将 会 降低 广告 投入 ， 提 高 广告 的 转化 率 。 

综 上 所 述 ， 国 内 外 大 数据 商业 价值 的 应 用 场景 ， 大 数据 公司 和 企业 都 
在 寻找 ， 目 前 在 移动 互联 网 的 精准 营销 和 获取 、360 度 用 户 画 像 、 房 地 产 开 
发 和 规划 、 互 联网 金融 的 风险 管理 、 金 融 行 业 的 供应 链 金 融 、 个 人 征 信 等 
方面 已 经 取得 了 进步 ， 拥 有 了 很 多 经 典 案例 。 

最 后 纵 观 人 类 历史 ， 在 任何 领域 ， 如 果 我 们 可 以 拿 到 数据 进行 分 析 ， 
我 们 就 会 取得 进步 。 如 果 我 们 拿 不 到 数据 ， 则 无 法 进行 分 析 ， 我 们 注定 要 
落后 。 我 们 过 去 因数 据 不 足 导致 的 错误 远 远 好 过 那些 根本 不 用 数据 的 错误 ， 
因此 我 们 需要 掌握 大 数据 这 个 武器 ， 利 用 好 它 ， 帮 助人 类 社会 加 速 进化 ， 
帮助 企业 实现 大 数据 的 价值 变现 。 








.7.3 习题 


- 大 数据 在 商业 中 的 应 用 涉及 什么 技术 ? 

. 你 身边 的 大 数据 应 用 有 哪些 ? 对 你 的 生活 有 什么 影响 ? 
. 了 解 大 数据 在 农业 、 房 地 产 等 行业 的 应 用 。 

- 展望 大 数据 未 来 商业 应 用 的 发 展 。 

- 思考 大 数据 能 否 运用 于 银行 业 ? 如 果 可 以 ， 有 哪些 运用 ? 


内 上 mm 一 


附录 A 


Hadoop 平台 搭建 


1. 安装 Hadoop 2.x 的 步骤 


口 建立 虚拟 机 (如 果 是 学 习 实验 建议 先 使 用 32 位 的 Linux， 原 因 后 
述 。 通 过 网 络 远程 登录 ， 便 于 用 ssh 客户 端 连接 ， 而 无 须 直 接 在 虚 
拟 机 控制 台 上 操作 )。 

安装 JDK。 

编辑 hosts 文件 。 

关闭 防火 墙 。 

部 署 免 密 码 ssh。 

下 载 Hadoop 2.x 并 解压 。 

修改 配置 文件 。 

分 发 Hadoop 到 各 个 节点 。 

启动 集群 。 


2. 具体 安装 步骤 


(1) 安装 JDK: 

下 载 DK， 如 图 A-l 所 示 。 

我 们 使 用 的 版 本 是 Oracle 的 jdk-6u24-linux-i586.tar.gz。 

首先 ， 切 换 到 root 用 户 ，>> su root， 把 jdk 移动 到 /usr/local 目录 下 。 进 
入 /usrlocal 目录 下 ， 通 过 >>tarzxvfjdk-7u71-linux-i586.targz 解压 文件 。 
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图 A-1 下 载 JDK 


解压 缩 完成 后 ， 我 们 可 以 查看 到 新 产生 的 目录 jdk1.6.0 24， 使 用 mv 
命令 重 命名 为 jdk， 如 图 A-2 所 示 ， 目 的 是 方便 以 后 引用 。 


图 A-2 重 命名 文件 夹 


接 下 来 把 jdk 的 命令 配置 到 环境 变量 中 。 

在 Linux 下 , 有 很 多 配置 环境 变量 的 地 方 , 分 为 全 局 环境 变量 和 局 部 环 
境 变 量 。Linux 加 载 的 时 候 ， 会 先 找 全 局 环境 变量 ， 如 果 找 不 到 ， 就 找 局 部 
变量 。 本 书 中 ， 我 们 只 设置 全 局 环境 变量 。 

使 用 vi 命令 打开 文件 “/etc/profile”， 如 图 A-3 所 示 。 并 编辑 jdk 环境 
变量 ， 如 图 A-4 所 示 。 同 时 检查 jdk 安装 ， 如 图 A-5 所 示 。 





图 A-3 打开 环境 变量 编辑 文件 





A-4 编辑 jdk 环境 变量 





A-5 检查 jdk 安装 


添加 以 下 代码 到 配置 文件 最 后 面 : 


export JAVA_HOME=/usr/local/jdk 
export PATH=.: $PATH: $JAVA_HOME/bin 
保存 修改 ， 切 换 Hadoop 用 户 ， 执 行 命令 导入 环境 变量 : 
>> source /etc/profile 
(2) 编辑 host 文件 : 
使 用 root 账号 修改 主机 名 : vi /etc/sysconfig/network 修改 为 hadoop01， 
重启 生效 , 也 可 以 使 用 hostname hadoop01, 临时 修改 主机 名 , 如 图 A-6 所 示 。 


池 hadoop@hadoop01:~ 





图 A-6 修改 主机 名 
使 用 root 账户 编辑 hosts 文件 


>> su root 
>> vim /etc/hosts 


增加 “192.168.79.134 hadoop01hadoop01”， 如 图 A-7 所 示 。 


| 嘿 hadcop@bogon:~ 一 口 x 





图 A-7 增加 hadoop01 
(3) 配置 免 密码 ssh: 
SSH 为 Secure Shell 的 缩写 ， 由 下 TF 的 网 络 小 组 (Network Working 
Group) 所 制定 ， SSH 为 建立 在 应 用 层 基 础 上 的 安全 协议 。 SSH 是 目前 较 可 











靠 ， 专 为 远程 登录 会 话 和 其 他 网 络 服务 提供 安全 性 的 协议 。 利 用 SSH 协议 
可 以 有 效 防止 远程 管理 过 程 中 的 信息 泄露 问题 。SSH 最 初 是 UNIX 系统 上 
的 一 个 程序 ， 后 来 又 迅速 扩展 到 其 他 操作 平台 。SSH 在 正确 使 用 时 可 弥补 
网 络 中 的 漏洞 。SSH 客户 端 适用 于 多 种 平台 。 几 乎 所 有 UNIX 平台 ， 包 括 
HP-UX、Linux、AIX、Solaris、Digital UNIX、Irix， 以 及 其 他 平台 ， 都 可 
运行 SSH。 

在 实施 安装 之 前 的 另 一 准备 工作 是 配置 sh， 生 成 密 钥 ， 使 到 各 节点 间 
可 以 使 用 ssh 免 密码 连接 ， 如果 是 伪 分 布 式 那 就 是 本 机 可 以 免 密 码 ssh 连接 
localhost。 

本 步骤 很 关键 , 对 于 不 熟悉 Linux 的 朋友 会 有 一 些 难 度 , 要 注 
件 的 权限 字 。 

















$5 钥 文 





ssh-keygen -t rsa 
- 直 回 车 确认 ， 如 图 A-8 所 示 。 


克 hadoop@bogon:~ 一 口 X 





图 A-8 密 钥 文件 
进入 密 钥 保存 目录 ， 如 图 A-9 所 示 。 


>> cd ~/.ssh 





查看 私 钥 内 容 ， 如 图 A-10 所 示 。 


>> cat id_rsa 





图 A-10 ” 私 钥 内 容 
重新 进入 密 钥 保存 目录 ， 如 图 A-11 所 示 。 


>> cd ~/.ssh 





图 A-11 重新 进入 密 钥 保存 
查看 公 钥 内 容 ， 如 图 A-12 所 示 。 


>> cat id_rsa.pub 





图 A-12 查看 公 钥 内 容 

















注意 要 以 Hadoop 用 户 登 录 ， 在 Hadoop 用 户 的 主 目录 下 进行 操作 ! 
每 个 节点 做 相同 操作 ， 如 图 A-13、 图 A-14、 图 A-15， 以 此 来 测试 是 
和 否 成 功 。 








>>cp id_rsa.pub authorized_keys 
>>ssh hadoop@hadoop01 


记 hadoop@bogon:~ 一 口 x 





图 A-13 节点 链接 操作 





党 hadoop@bogon:~/.ssh 


| nm - 






图 A-14 节点 链接 操作 





图 A-15 节点 链接 操作 


把 各 个 节点 的 authorized_keys 的 内 容 互 相 复 制 加 入 对 方 的 此 文件 中 ， 
然后 就 可 以 免 密 码 彼 此 ssh 接 入 ， 如 图 A-16 所 示 。 


中 hadoop@bogon:~/.ssh 一 口 x 





图 A-16 ”链接 成 功 


(4) 下 载 Hadoop2.x: 
下 载 镜像 ， http://apache.fayea.com/hadoop/common/， 尽 量 下 载 Stable 版 
本 ， 如 图 A-17， 下 载 对 应 版 本 Hadoop， 并 如 图 A-18， 选 择 对 应 下 载 文件 。 


SN ndexof/hadoop/comr x 


二 CO apache.fayea.com/hadoop/common/ 


Index of /hadoop/common 


Raae Last nodified Size Description 
Parent Directory 
current/ 2016-09-07 00:49 -~ 
hadoop-L.2.1/ 2015-02-18 07:46 

2 2015-02-18 07:46 
hadoorZ 6 0/ 2015-02-18 07:46 ~ 
hadoomr2 6 1/ 2015-09-24 06:34 一 
badoop-2.6.21 2015-10-31 05:05 ~ 
hadoop-2.6.3/ 2015-12-18 10:49 
badoop-2.6.4/ 2016-02-12 20:37 
adoop-2.6.5/ 2016-10-11 11:24 
baaoop-2. 1.0/ 2015-04-22 00:47 
badoop-27 1 2015-07-07 08:33 
badoop-2. 7.2/ 2016-01-26 09:29 
badooz-2.7.3/ 2016-08-26 03: 25 
hadoor3. 0. 0-alohal/ 。 2016-09-07 00.49 
stable/ 2016-08-26 03:25 
tablel/ 2015-02-18 07:46 
stable2/ 2016-08-26 03:25 。 一 
Feadae txt 2015-04-21 09:32 184 


图 A-17 下 载 对 应 版 本 Hadoop 


SN Index of /hadoop/com X 


€ CG | © apache.fayea.com/hadoop/common/stable/ 


Index of /hadoop/common/stable 


ane Last mdified Size Description 





Parent Directory 村 
hadoop-2. 7. 3 src. tar. gz 2016-08-26 03:25 17X 
hadoop-2. 1. +-src. tar. gz. mds 2016-08-26 03:25 1.1X 
hadoop-2. 7. J tar. gz 0 -25 03:25 2047 
hadoop-2. 7. 3, tar, gz. mds 2016-08-26 03:25 958 


图 A-18 选择 对 应 下 载 文件 











使 用 Hadoop 用 户 创建 目录 /home/hadoop/bdp。 

复制 Hadoop 压缩 包 文件 hadoop-2.6.0.tar.gz 到 目录 /home/hadoop/bdp。 

进入 目录 /home/hadoop/bdp, 解压 压缩 包 >> tar -zxvf hadoop-2.6.0.tar.gz， 
如 图 A-19 所 示 。 

解压 后 的 文件 夹 名 为 hadoop-2.6.0， 将 文件 夹 名 更 改 为 Hadoop，>> mv 
Hadoop-2.6.0 Hadoop， 如 图 A-20 所 示 文 件 夹 内 容 。 





图 A-19 解压 Hadoop 文件 压缩 包 





A-20 查看 文件 夹 内 容 


(5) 设置 HADOOP HOME: 
切换 到 root 用 户 ， 编 辑 环境 变量 文件 /etc/profile， 如 图 A-21 所 示 。 
设置 HADOOP HOME， 并 配置 参数 。 

export HADOOP_HOME=/home/hadoop/bdp/hadoop 

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/ibmnative 


export HADOOP_OPTS=" -Djava.library.path=$HADOOP_HOME/lib/native" 
export PATH=. : $PATH : $JAVA_HOME/bin : $HADOOP_HOME/bin : 


SHADOOP_HOME/sbin 


保存 ， 然 后 退出 ， 并 刷新 全 局 变量 : source /etc/profile。 





A-21 配置 JDK 环境 变量 


(6) 修改 配置 文件 : 
涉及 的 配置 文件 有 8 个 : 


~/bdp/hadoop/etc/hadoop/hadoop-env.sh 
~/bdp/hadoop/etc/hadoop/yarn-env.sh 
~/bdp/hadoop/etc/hadoop/mapred-env.sh 
~/bdp/hadoop/etc/hadoop/slaves 
~/bdp/hadoop/etc/hadoop/core-site.xml 
~/bdp/hadoop/etc/hadoop/hdfs-site.xml 
~/bdp/hadoop/etc/hadoop/mapred-site.xml 
~/bdp/hadoop/etc/hadoop/yarn-site.xml 


以 上 个 别 文件 默认 并 存在 的 ， 可 以 复制 相应 的 template 文件 获得 。 
设置 hadoop 的 JAVA HOME 为 /usr/localjdk/， 如 图 A-22 所 示 。 





图 A-22 设置 Hadoop JDK 


设置 yam 的 JAVA_HOME 为 /usr/localjdk/， 如 图 A-23 所 示 。 





图 A-23 设置 yarn JDK 


设置 mapred-env.sh 的 JAVA_HOME 为 /usr/localjdk/， 如 图 A-24 所 示 。 


闻 he 





A-24 设置 mapred-env.JDK 


设置 从 节点 为 hadoop01， 因 为 我 们 是 伪 分 布 式 ， 如 图 A-25， 图 A-26 
所 示 。 





A-25 ”编辑 节点 配置 文件 


池 hadoop@hadoop01:~/bdp/hadoop/etc/hadoop 





图 A-26 编辑 从 节点 配置 文件 内 容 
创建 hadoop 元 数据 保存 目录 ， 如 图 A-27 所 示 。 


mkdir -p /home/hadoop/bdp/hadoop/tmp 
mkdir -p /home/hadoop/bdp/hadoop/name 
mkdir -p /home/hadoop/bdp/hadoop/data 





图 A-27 创建 元 数据 保存 目录 


core-site.xml 
<configuration> 
<property> 
<name>fs.defaultFS</name> 
<value>hdfs: //hadoop01: 9000</value> 
</property> 
<property> 
<name>hadoop.tmp.dir</name> 
<value>file: /home/hadoop/bdp/hadoop/tmp</value> 
</property> 
</configuration> 
hdfs-site.xml 
<configuration> 
<property> 
<name>dfs.namenode.name.dir</name> 
<value>file: /home/hadoop/bdp/hadoop/name</value> 
</property> 
<property> 


<name>dfs.datanode.data.dir</name> 
<value>file: /home/hadoop/bdp/hadoop/data</value> 


</property> 


<property> 
<name>dfs.replication</name> 
<value>1</Value> 
</property> 
<property> 
<name>dfs.webhdfs.enabled</name> 
<value>true</value> 
</property> 
</configuration> 
mapred-site.xml 
<configuration> 
<property> 
<name>mapreduce.framework.name</name> 
<value>yarn</value> 
</property> 
</configuration> 
yarn-site.xml 
<configuration> 
<property> 
<name>yarn.nodemanager.aux-services</name> 
<value>mapreduce_shuffle</value> 
</property> 
<property> 
<name>yarn.resourcemanager.hostname</name> 
<value>hadoop01</value> 
</property> 
</configuration> 


(7) 启动 集群 及 检验 : 
格式 化 namenode: ./bin/hdfs namenode-format， 如 图 A-28 所 示 。 


启动 hdfs: ./sbin/start-dfs.sh， 如 图 A-29 所 示 。 
启动 yam: ./sbin/start-yam.sh， 如 图 A-30 所 示 。 





图 A-28 格式 化 hdfs 





图 A-29 启动 hdfs 





图 A-30 启动 yarn 


附录 B 


大 数据 和 人 工 智能 实验 环境 


1. 大 数据 实验 环境 


方面 ， 大 数据 实验 环境 安装 、 配 置 难 度 大 ， 高 校 难以 为 每 个 学 生 提 
供 实 验 集群 ， 实 验 环境 容易 被 破坏 ;， 另 一 方面 ， 实 用 型 大 数据 人 才 培 养 面 
临 实验 内 容 不 成 体系 、 课 程 教材 缺失 、 考 试 系统 不 客观 、 缺 少 实 训 项目 以 
及 专业 师资 不 足 等 问题 ， 实 验 开展 束 手 束 脚 。 

大 数据 实验 平台 (bd.cstorcn) 可 提供 便捷 实用 的 在 线 大 数据 实验 服务 。 
同步 提供 实验 环境 、 实 验 课 程 、 教 学 视频 等 ， 帮 助 轻松 开展 大 数据 教学 与 
实验 。 在 大 数据 实验 平台 上 ， 用 户 可 以 根据 学 习 基础 及 时 间 条 件 ， 灵 活 安 
排 3 一 7 天 的 学 习 计 划 ， 进 行 自主 学 习 。 大 数据 实验 平台 1.0 界面 如 图 B-1 
所 示 。 





B-1 大 数据 实验 平台 1.0 界面 


oe— 


206 大 数据 导论 一 。 


作为 一 站 式 的 大 数据 综合 实 训 平台 ， 大 数据 实验 平台 同步 提供 实验 环 
境 、 实 验 课程 、 教 学 视频 等 ， 方 便 轻松 开展 大 数据 教学 与 实验 。 平 台 基 于 
Docker 容器 技术 ， 可 以 瞬间 创建 随时 运行 的 实验 环境 ， 虚 拟 出 大 量 实验 集 
群 ， 方 便 上 百 个 用 户 同时 使 用 。 通 过 采用 Kubernates 容器 编排 架构 管理 集 
群 , 用 户 实验 集群 隔离 、 互 不 干扰 , 并 可 按 需 配置 包含 Hadoop、HBase、 Hive、 
Spark、Storm 等 组 件 的 集群 , 或 利用 平台 提供 的 一 键 搭建 集群 功能 快速 搭建 。 

实验 内 容 涵盖 Hadoop 生态 、 大 数据 实战 原理 验证 、 综 合 应 用 、 自 主 设 
计 及 创新 的 多 层次 实验 内 容 等 ， 每 个 实验 呈现 详细 的 实验 目的 、 实 验 内 容 、 
实验 原理 和 实验 流程 指导 。 实 验 课程 包括 36 个 Hadoop 生态 大 数据 实验 和 
6 个 真实 大 数据 实战 项 目 。 平 台 内 置 数据 挖掘 等 教学 实验 数据 ,也 可 导入 高 
校 各 学 科 数 据 进行 教学 、 科 研 ， 校 外 培训 机 构 同样 适用 。 

此 外 ， 如 果 学 校 需要 自己 搭建 专属 的 大 数据 实验 环境 , BDRack 大 数据 
实验 一 体 机 (http:/www.cstorcn/proTextdetail_ 11007.html) 可 针对 大 数据 实 
验 需 求 提供 完善 的 使 用 环境 ， 帮 助 高 校 建设 搭建 私有 的 实验 环境 。 其 部 署 
规划 如 图 B-2 所 示 。 
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图 B-2 BDRack 大 数据 实验 一 体 机 部 署 规划 


基于 容器 Docker 技术 ， 大 数据 实验 一 体 机 采用 Mesos+ZooKeeper+ 
Marathon 架构 管理 Docker 集群 。 实 验 时 ， 系 统 预先 针对 大 数据 实验 内 容 构 
建 好 一 系列 基于 CentOS 7 的 特定 容器 镜像 ,通过 Docker 在 集群 主机 内 构建 
容器 ， 充 分 利用 容器 资源 高 效 的 特点 ， 为 每 个 使 用 平台 的 用 户 开辟 属于 自 
己 完全 隔离 的 实验 环境 。 容器 内 部 , 用 户 完全 可 以 像 使 用 Linux 操作 系统 一 
样 地 使 用 容器 ， 并 且 不 会 被 其 他 用 户 的 集群 所 任何 影响 ， 只 需 几 台 机 器 ， 
就 可 能 虚拟 出 能 够 支持 上 百 个 用 户 同时 使 用 的 隔离 集群 环境 。 图 B-3 所 示 
为 BDRack 大 数据 实验 一 体 机 系统 架构 。 
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图 B-3 BDRack 大 数据 实验 一 体 机 系统 架构 


硬件 方面 ， 采 用 cServer 机 架 式 服务 器 ， 其 英特尔 "至 强 "处 理 器 E5 产 
品 家 族 的 性 能 比 上 一 代 提 升 多 至 80%， 并 具备 更 出 色 的 能 源 效 率 。 通 过 英 
特 尔 E5 家 族 系列 CPU 及 英特尔 服务 器 组 件 , 可 满足 扩展 IO 灵活 度 、 最 大 
化 内 存 容 量 、 大 容量 存储 和 宛 余 计算 等 需求 ， 软 件 方面 ， 搭 载 Docker 容器 
云 可 实现 Hadoop、HBase、Ambari、 HDFS、YARN、 MapReduce、 ZooKeeper、 
Spark、Storm、Hive、Pig、Oozie、Mahout、Python、R 语言 等 绝 大 部 分 大 
数据 实验 应 用 。 

大 数据 实验 一 体 机 集 实验 机 器 、 实 验 手 册 、 实 验 数据 以 及 实验 培训 于 
- 体 ， 解 决 怎么 开设 大 数据 实验 课程 、 需 要 做 什么 实验 、 怎 么 完成 实验 等 
-系列 根本 问题 。 提 供 了 完整 的 大 数据 实验 体系 及 配套 资源 ， 包 含 大 数据 

教材 、 教 学 PPT、 实 验 手 册 、 课 程 视频 、 实 验 环 境 、 师 资 培训 等 内 容 ， 涵 
盖 面 较为 广泛 ， 通 过 发 挥 实验 设备 、 理 论 教 材 、 实 验 手 册 等 资源 的 合力 ， 
大 幅度 降低 高 校 大 数据 课程 的 学 习 门 槛 ， 满 足 数据 存储 、 挖 据 、 管 理 、 计 
算 等 多 样 化 的 教学 科研 需求 。 具 体 的 规格 参数 表 如 表 B-1 所 示 。 
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表 B-1 规格 参数 表 










管理 节点 
处 理 节点 
上 机 人 数 













30 人 60 人 150 人 


《大 数据 导论 》50 本 ”| 《大 数据 导论 》80 本 ”|《 大 数据 导论 》180 本 
实验 教材 |《 大 数据 实践 》50 本 ”|《 大 数据 实践 》80 本 ”|《 大 数据 实践 》180 本 
《实战 手册 》PDF 版 ”| 《实战 手册 》PDF 版 ”|《 实 战 手册 》PDF 版 


配套 PPT | 有 有 有 
配套 视频 | 有 有 有 


提供 现场 实施 及 3 天 “| 提供 现场 实施 及 5 天 | 提供 现场 实施 及 7 天 
技术 培训 服务 技术 培训 服务 技术 培训 服务 




















免费 培训 
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大 数据 实验 一 体 机 在 1.0 版 本 基础 上 更 新 升级 到 最 新 的 2.0 版 本 实验 
体系 ， 进 一 步 丰 富 了 实验 内 容 ， 实 验 课程 数量 新 增 至 85 个 。 同 时 ， 实 验 
平台 优化 了 创建 环境 一 实验 操作 一 提交 报告 一 教师 打分 的 实验 流程 , 新 增 
了 具有 海量 题库 、 试 卷 生成 、 在 线 考试 、 辅 助 评分 等 应 用 的 考试 系统 ， 
集成 了 上 传 数据 一 指定 列表 一 选择 算法 一 数据 展示 的 数据 挖 据 及 可 视 化 
亚 具 。 

在 实验 指导 方面 ， 针 对 各 项 实验 所 需 ， 大 数据 实验 一 体 机 配套 了 一 系 
列 包括 实验 目的 、 实 验 内 容 、 实 验 步 又 的 实验 手册 及 配套 高 清 视频 课程 ， 
内 容 涵 盖 大 数据 集群 环境 与 大 数据 核心 组 件 等 技术 前 沿 ， 详 尽 细致 的 实验 
操作 流程 可 帮助 用 户 解决 大 数据 实验 门槛 所 限 。 有 具体 来 说 ，85 个 实验 课程 
包括 以 下 方面 。 

(1) 36 个 Hadoop 生态 大 数据 实验 。 

(2) 6 个 真实 大 数据 实战 项 目 。 

(3) 21 个 基于 Python 的 大 数据 实验 。 

(4) 18 个 基于 及 语言 的 大 数据 实验 。 

(5) 4 个 Linux 基本 操作 辅助 实验 。 

整套 大 数据 系列 教材 的 全 部 实验 都 可 在 大 数据 实验 平台 上 远程 开展 ， 
也 可 在 高 校 部 署 的 BDRack 大 数据 实验 一 体 机 上 本 地 开展 。 

作为 一 套 完整 的 大 数据 实验 平台 应 用 ，BDRack 大 数据 实验 一 体 机 还 配 
套 了 实验 教材 、PPT 以 及 各 种 实验 数据 ， 提 供 使 用 培训 和 现场 服务 ， 中 国 大 
数据 (thebigdata.cn)、 中 国 云 计算 (chinacloud.cn)、 中 国 存储 (chinastororg)、 
中 国 物 联网 (netofthings.cn)、 中 国 智慧 城市 (smartcitychina.cn) 等 提供 全 线 
支持 。 目 前 , BDRack 大 数据 实验 一 体 机 已 经 成 功 应 用 于 各 类 院 校 , 国家 “211 
工程 ”重点 建设 高 校 代表 有 郑州 大 学 等 ， 民 办 院 校 有 西京 学 院 等 。 其 部 署 
图 如 图 B-4 所 示 。 


2. 人 工 智 能 实验 环境 


人 工 智能 实验 一 直 难 以 开展 ， 主 要 有 两 方面 原因 。 一 方面 ， 实 验 环境 
需要 提供 深度 学 习 计 算 集群 ， 支 持 主流 深度 学 习 框架 ， 完 成 实验 环境 的 快 
速 部 署 ， 应 用 于 深度 学 习 模型 训练 等 教学 实践 需求 ， 同 时 也 需要 支持 多 人 
在 线 实验 。 另 一 方面 ， 人 工 智 能 实验 面临 配置 难度 大 、 实 验 入 门 难 、 缺 乏 
实验 数据 等 难题 ， 在 实验 环境 、 应 用 教材 、 实 验 手 册 、 实 验 数 据 、 技 术 支 
持 等 多 方面 吸 须 支持 ， 以 大 幅度 降低 人 工 智能 课程 学 习 门 槛 ， 满 足 课程 设 
计 、 课 程 上 机 实验 、 实 习 实 训 、 科 研 训 练 等 多 方面 需求 ， 实 现 教学 实验 效 
果 的 事半功倍 。 
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AIRack 人 工 智 能 实验 平台 (http://wwwi.cstor.cn/proTextdetail_ 12031.html) 
基于 Docker 容器 技术 ， 在 硬件 上 采用 GPU+CPU 混合 架构 ， 可 一 键 创建 实 
验 环境 ， 并 为 人 工 智能 实验 学 习 提供 一 站 式 服务 。 其 实验 体系 架构 如 图 B-5 
所 示 。 


图 B-4 BDRack 大 数据 实验 一 体 机 实际 部 署 图 
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B-5 AIRack 人 工 智 能 实验 平台 实验 体系 架构 
实验 时 ， 系 统 预先 针对 人 工 智能 实验 内 容 构 建 好 基于 CentOS 7 的 特定 





容器 镜像 , 通过 Docker 在 集群 主机 内 构建 容器 , 开辟 完全 隔离 的 实验 环境 
实现 使 用 几 台 机 器 即 可 虚拟 出 大 量 实验 集群 以 满足 学 校 实验 室 的 使 用 需 
求 。 平 台 采 用 Google 开源 的 容器 集群 管理 系统 Kubemetes， 能 够 方便 地 管 
理 跨 机 器 运行 容器 化 的 应 用 ， 提 供应 用 部 署 、 维 护 、 扩 展 机 制 等 功能 。 暴 
平台 架构 如 图 B-6 所 示 。 
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图 B-6 AlRack 人 工 智能 实验 平台 架构 
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配套 实验 手册 包括 20 个 人 工 智能 相关 实验 ,实验 基于 VGGNet、FCN、 
ResNet 等 图 像 分 类 模型 ， 应 用 Faster R-CNN、YOLO 等 优秀 检测 框架 ， 实 
现 分 类 、 识 别 、 检 测 、 语 义 分 割 、 序 列 预测 等 人 工 智能 任务 。 有 具体 的 实验 
手册 大 纲 如 表 B-2 所 示 。 





表 B-2 实验 手册 大 纲 


























序号 课程 名 称 | 课程 内 容 说 明 | 课时 | 培训 对 象 
2 a 模型 和 CIFAR-10 数据 15 教师 、 学 生 
3 | 生生 ge eu 伟 型 和 mgee 获 | 理论 + 上 机 训练 | 15 | 教师 、 学 生 
4 | 站 CGN 本 下 和 CASIA WebFaee | 理论 + 上 机 训练 | 1.5 | 教 策 、 学 生 
5 | 苇 训 代 模型 和 TnegeNet 数 据 集 | 理论 + 上 机 训练 | 15 | 教师 、 学 生 
6 | 甘于 信 be 和 eNet 数 | 理论 + 上 机 训练 | 15 | 教师 、 学 生 
7 | 六 ep CASIA Yese | 理论 + 上 机 训练 | 15 | 教 请 、 学 生 
8 二 ne Paseal | 理论 + 上 机 训练 | 1.5 | 教师 、 学 生 
9 | 天 和 SIR Flow 数据 集 的 | 理论 + 上 机 训练 | 1.5 | 教 策 、 学 生 





序号 课程 名 称 














10 | 基于 R-FCN 模型 的 行人 检测 理论 + 上 机 训练 
| 
12 模型 和 ImageNet 数据 集 的 理论 + 上 机 训练 
泡 nd Pascal VOC 数 理论 + 上 机 训练 





14 | 基于 linear regression 的 房价 预测 理论 + 上 机 训练 
15 | 基于 CNN 模型 的 芒 尾 花 品种 识别 | 理论 + 上 机 训练 
16 | 基于 RNN 模型 的 时 序 预 测 理论 + 上 机 训练 | 1 
基于 LSTM 模型 的 文字 生成 L 
18 | 基于 LSTM 模型 的 英法 翻译 
基于 


- CNN Neural Style 模型 绘画 风 i 
格 迁 移 理论 + 上 机 训练 


20 | 基于 CNN 模型 灰色 图 片 着 色 理论 + 上 机 训练 


同时 ,平台 同步 提供 实验 代码 以 及 MNIST、CIFAR-10、ImageNet、CASIA 
WebFace、Pascal VOC、Sift Flow、COCO 等 训练 数据 集 ， 实 验 数 据 做 打包 
处 理 ， 以 便 开展 便捷 、 可 靠 的 人 工 智 能 和 深度 学 习 应 用 。 





























AIRack 人 工 智能 实验 平台 硬件 配置 如 表 B-3 所 示 。 
表 B-3 AlRack 人 工 智能 实验 平台 硬件 配置 






产品 名称 



















CPU | ES-2650V4 2 
内 存 | 32GB ppR4 RECC 8 
SSD | 4soGB ssp 1 





硬盘 






AIRack 人 工 智 能 实验 平台 集群 配置 如 表 B-4 所 示 。 
表 B-4 AIRack 人 工 智 能 实验 平台 集群 配置 





增强 型 
上 机 人 数 了 大 
服务 器 9 台 





交换 机 S5720-30C-SI S5720-30C-SI S5720-30C-SI 





极 简 型 经 济 型 标 准 型 增 强 型 

















CPU E5-2650V4 E5-2650V4 E5-2650V4 E5-2650V4 
GPU 1080P 1080P 1080P 1080P 
(型 号 可 选 ) (型 号 可 选 ) (型 号 可 选 ) 〈 型 号 可 选 ) 
内 存 8*32GB DDR4 | 24*32GB DDR4 | 48*32GB DDR4 | 72*32GB DDR4 
RECC RECC RECC RECC 
SSD 1*480GB SSD | 3*480GB SSD 6*480GB SSD 9*480GB SSD 
硬盘 4*4TB SATA 12*4TB SATA |24*4TB SATA |36*4TB SATA 








在 人 工 智 能 实验 平 台 之 外 ， 针对 目前 全 国 各 大 高 校 相继 开启 深度 学 习 
相关 课程 ，DeepRack 深度 学 习 一 体 机 (http://www.cstorcn/proTextdetail 
10766.html) 一 举 解决 了 深度 学 习 研 究 环境 搭建 耗 时 、 硬 件 条 件 要 求 高 等 种 
种 问题 。 

凭借 过 硬 的 硬件 配置 ， 深 度 学 习 一 体 机 能 够 提供 最 大 每 秒 144 万 亿 次 
的 单 精度 计算 能 力 ， 满 配 时 相当 于 160 台 服 务 器 的 计算 能 力 。 考 虑 到 实际 
使 用 中 长 时 间 大 规模 的 运算 需要 ， 一 体 机 内 部 采用 了 专业 的 散热 、 能 耗 设 
计 ， 解 决 了 用 户 对 于 机 器 负荷 方面 的 忧虑 。 

- 体 机 中 部 署 有 TensorFlow、Caffe 等 主流 的 深度 学 习 开源 框架 ， 并 提 
供 大 量 免 费 图 片 数 据 ， 可 帮助 学 生 学 习 诸 如 图 像 识 别 、 语 音 识 别 和 语言 
译 等 任务 。 利 用 一 体 机 中 的 基础 训练 数据 , 包括 MNIST、CIFAR-10、ImageNet 
等 图 像 数据 集 ， 也 可 以 满足 实验 与 模型 塑造 过 程 中 的 训练 数据 需求 。 深 度 
学 习 一 体 机 外 观 如 图 B-7 所 示 ， 服 务 器 内 部 如 图 B-8 所 示 。 





图 B-7 深度 学 习 一 体 机 外 观 图 B-8 深度 学 习 一 体 机 
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深度 学 习 一 体 机 服务 器 配置 参数 如 表 B-5 所 示 。 
表 B-5 服务 器 配置 参数 


经 济 型 标 准 型 
Dual E5-2620 V4 | Dual E5-2650 V4 


Nvidia Titan X*4 “| Nvidia Tesla P100*4 | Nvidia Tesla P100*4 







增强 型 


Dual E5-2697 V4 











240GB SSD+4T 企 | 480GB SSD+4T 企 
业 得 


800GB SSD+4T*7 企 








硬盘 





计算 节点 数 


单 精 度 浮 点 计算 
性 能 






Caffe、TensorFlow 深度 学 习 软 件 、 样 例 程序 ， 大 量 免费 图 片 数据 


是 否 支持 分 布 式 是 
深度 学 习 系统 













此 外 ， 对 于 构建 高 性 价 比 硬件 平台 的 个 性 化 的 AI 应 用 需求 ，dServer 
人 工 智 能 服务 器 (http:/www.cstorcn/proTextdetail 12032.html) 采用 英特尔 
CPU+ 英 伟 达 GPU 的 混合 架构 ， 预 装 CentOS 操作 系统 ， 集 成 两 套 行业 主流 
开源 工具 软件 一 TensorFlow 和 Caffe， 同 时 提供 MNIST、CIFAR-10 等 训练 
测试 数据 ， 通 过 多 类 型 的 软 硬 件 备 选 方案 以 及 高 性 能 、 点 菜 式 的 解决 方案 ， 
方便 自由 选 配 及 定制 安全 可 靠 的 个 性 化 应 用 ， 可 广泛 用 于 图 像 识 别 、 语 音 














识别 和 语言 翻译 等 AI 领域 。dServer 人 工 智能 服务 器 如 图 B-9 所 示 ， 配 置 
参数 如 表 B-6 所 示 。 
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图 B-9 dServer 人 工 智 能 服务 器 





环境 
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表 B-6 dServer 人 工 智 能 服务 器 配置 参数 














配 置 参 数 

Tesla P100, Tesla P4, Tesla P40, Tesla K80, Tesla M40, Tesla M10, 
i i Tesla M60, TITAN X, GeForce GTX 1080 
CPU Dual E5-2620 V4, Dual E5-2650 V4, Dual E5-2697 V4 
内 存 64GB/128GB/256GB 
系统 盘 120GB SSD/180GB SSD/240GB SSD 
数据 盘 2TB/3TB/4TB 
准 系统 7048GR-TR 
软件 TensorFlow, Caffe 

3 二 J/ 站 有 yy 

数据 ( 张 ) 车 牌 图 片 (100 万 /200 万 /500 万 ) ，ImageNet (100 万 ) ， 人 脸 图 


片 数 据 (50 万 ) ， 环 保 数据 





目前 ，dServer 人 工 智 能 服务 器 已 经 在 清华 大 学 车 联网 数据 云 平 台 、 
安 科技 大 学 大 数据 深度 学 习 平台 、 湖 北 文理 学 院 大 数据 处 理 与 分 析 平 台 等 项 
目 中 部 署 使 用 。 其 中 ， 清 华 大 学 车 联网 数据 云 平台 项 目 配置 如 图 B-10 所 示 。 








国友 
pp ey 
生产 厂家 [ 括 科 技 股 份 有 限 公司 
主要 规格 
GPU: 4NVIDIA TITANX 内 存 : 4*16G (64G) DDR4.2133MHz，RECC 
配置 说 明 


B-10 ”清华 大 学 车 联网 数据 云 平台 项 目 配置 


综 上 所 述 ,大 数据 实验 平台 1.0 用 于 个 人 自学 大 数据 远程 做 实验 ; 大 数 
据 实 验 一 体 机 受到 各 大 高 校 青 睐 ， 用 于 构建 各 大 学 自己 的 大 数据 实验 教学 
平台 ， 使 得 大 量 学 生 可 同时 进行 大 数据 实验 ，AIRack 人 工 智能 实验 平台 支 
持 众多 师 生 同 时 在 线 进行 人 工 智 能 实验 ;DeepRack 深度 学 习 一 体 机 能 够 给 
高 校 和 科研 机 构 构 建 一 个 开 箱 即 用 的 人 工 智 能 科研 环境 ，dServer 人 工 智 能 
服务 器 可 直接 用 于 小 规模 AI 研究 ， 或 搭建 AI 科研 集群 。 
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